试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

这个怎么采集啊!我没弄明白!

作者: diaosu798 | 阅读: 185068/2   2013/3/3 21:53:59
 
http://www.diaosu.cn/Scholar/Discourse/Index.html

http://www.diaosu.cn/Scholar/Discourse/index_9.html

第一页和下一页的参数不一样是怎么弄啊!


2 楼: 测试专用账号 2013/3/3 23:11:47
 
这个网站的列表页面非常特殊,而且网站列表页面本身也有BUG。比如http://www.diaosu.cn/Scholar/Discourse/index_8.html 就没有内容。

其翻页是从后到前,翻页序号小的在后面,序号大的在前面。另外一个关键特征是其列表页面有2个完全不同的模板。

第一、列表页面的翻页设置:由于其列表页面中的翻页链接是JS输出的的,分析后,没有“下一页”或“上一页”的链接存在。因此需要选择“方式2:自定义翻页参数的设置”。拟定一个翻页参数名称,并填写初始值20,目标值1,步长-1 。

第二、选择内容页的设置,选择第二项“方式2:普通模式(输入链接字符串的特征符号)”,并填写“Scholar/Discourse” 。即可

从开始设置,到采集完成全部的359篇文章,耗时不到1分钟时间【使用自动解析(简单模式)】。



3 楼: diaosu798 2013/3/4 20:48:53
 
非常感谢


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 网络爬虫 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4