试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

http://www.zdic.net/z/jbs/这种网页怎么采集

作者: mnbvcxzasdfghj | 阅读: 36412/3   2015/7/1 18:25:37
 
非HTML结尾,试了好几个在线词典网站都不能采集,当然前提是我需要整本工具书,
并且希望一次采集完,用下一级页面分析最终也釆不全。
http://cd.diyifanwen.com/
http://www.zdic.net/z/
http://zidian.teachercn.com/
http://wyw.hwxnet.com/
http://dict.baidu.com/s?wd=%E7%94%B5%E9%A5%AD%E9%94%85
任意讲解一个就好
谢谢!


2 楼: 管理员 2015/7/2 16:29:01
 
你标题中提到的页面,里面的链接,是用JS文件二次加载的。所以你用常规的方法不容易采集。这个需要用中介方式生成该JS文件地址并进行批量访问。总之,这比较麻烦。


可以变通一下,比如从该网站中提供的“笔画”索引进入,再遍历。也可以采集全部字。http://zidian.teachercn.com/  页面左边的笔画数作为一级链接入口进行采集:

 
  

然后,在第一个内容页页面中,按如下设置:

 
  

即可访问该二级标题列表页面中所列的所有字,然后点击“分析该链接指向的页面”按钮,进入最终的内容页面,按需要进行采集设置即可。


最终采集结果截图如下:

 
  


这样,利用熊猫的“面向对象”采集功能。能够一次性全部采集网站中所有的字的明细资料。


3 楼: 2015/7/4 7:50:00
 
非常感谢您的耐心解答,我试过了这确实有用

4 楼: 2015/7/4 7:50:03
 
非常感谢您的耐心解答,我试过了这确实有用


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 微信采集软件 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4