试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

采集后的归类

作者: 墨云鸦 | 阅读: 109116/1   2013/4/20 9:37:40
 
你好,我想问问,我因为毕业设计需求,现在需要用到网络爬虫爬取2000篇的专题新闻演化。
但是我爬取的时候,一次只能爬取200篇下来,这远远不能达到我需求的篇数,而且我不怎么会使用数据库。
我想能不能爬取下来之后把图片链接之类的全取消掉,只需要建城一个TXT文档。
001.txt

<title>______
<time>_______
<text>_______

这样的板式来总结出内容,图片音乐视频什么的全都不需要,只需要正文和题目标题。这能达到目的么?还有要怎么弄?
因为时间不多了,很急。楼主好人,千秋万载,一统江湖,生意兴隆,合家幸福。


2 楼: 测试专用账号 2013/4/20 11:16:46
 
熊猫的默认采集结果是存储在该项目所在文件夹下的data.mdb文件中,为office.access文件格式,用Office.excel软件也可以打开查看的。

首选在软件主界面左边列表中选中当前项目,然后在软件主界面左上角主菜单依次点击:项目管理-打开项目文件夹。在打开的项目文件夹中,有data.mdb文件,采集结果是存储在该文件中。

用access或者excel软件打开后,可以转存为txt格式。目前版本的熊猫暂缺直接导出为单个txt文件的功能。

如果采集结果中不需要包含图片视频等信息,可以在采集设置中,去掉“盗链图片”的勾选即可。

如果还不会,请加QQ2607374426 ,寻求支持。

一般采集结果的数量,可以自己调整,你说的只有200个,是指软件主界面下方的列表中罗列的吧,这儿罗列的只是最新的采集结果。


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 PHP采集 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4