试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

请教版主:能否帮我分析一下我建的项目,设置有何不对?谢谢!

作者: danzui | 阅读: 14707/4   2013/12/3 0:05:24
 
我建了一个项目,想采集http://www.ftchinese.com/channel/china.html(FT中文网)页面上的文章链接所在标题以及链接地址,但采集的结果中,链接是正确的,标题却有大量重复,与页面的实际情况不符。但又不知错在何处,能否麻烦版主帮我分析一下,谢谢!(我把项目所在目录压缩成了rar文件,改名为jpg格式文件当做图片上传了,可下载后改名为“FT中文网.rar”)
 



2 楼: danzui 2013/12/3 0:12:27
 
我的思路是:因为我不关心子页面的具体内容,所以不想采集子页面,而是试图直接提取链接处的文字作为标题,这样能够大幅提高采集速度。如果版主能建个项目,帮我实现这个功能,并把项目文件发给我,让我从中感受熊猫采集的强大功能,那我就太荣幸了。

3 楼: 测试专用账号 2013/12/3 9:55:40
 
我下载了你上传的项目,是可以按你需要实现采集的。

在“选择内容页”设置对话框中,打开列表框上方的“高级设定>>>”对话框,点击对话框左下的“恢复默认”按钮,即可。或者按下图进行设置微调:

 
  

当前页面列表中有30个结果,都完整采集了,没有发现标题重复的情况:

 


4 楼: 测试专用账号 2013/12/3 9:58:27
 

另外,你选择的更新方式为“跳过重复,断点续采”,此时非首次采集的时候,数据库data.mdb中已经记录有的Url是不会再次采集显示的,这个时候采集结果数量可能就不完整。

建议在项目设置阶段,更新方式应该选择第一项“完全覆盖”。在确认设置无误的情况下,正式运行的时候,再修改项目更新方式为“断点续采”。

5 楼: danzui 2013/12/3 20:47:40
 
谢谢您的热心指导!但是你的方法解决不了我的问题,因为我想采集的是31个,而不是30个。在你的方法指引下,我做了多个试验,但依然解决不了问题,同时也发现了不少值得改进之处。我迫切希望能跟你实时交流。我的qq:105933328.谢谢!


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 简历采集系统 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4