试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

希望增加传统网页编码采集方式

作者: 林小璇 | 阅读: 194949/1   2012/6/19 15:53:14
 
对于这样一种方法,有时候会出现不准确性,有时候没看到编码,有可能不存在唯一性,所以还是希望对于关键性的东西增加这一项,多一种模式


2 楼: 测试专用账号 2012/6/20 8:39:53
 
谢谢建议。

不是没考虑过兼容传统的采集方式,只是两种模式有很难兼容的地方。普通的单一表单采集可以做到兼容。但熊猫独有的重复子项采集功能,例如帖子的多项回复内容的采集,就没法在视觉模拟和代码匹配两种模式之间完美兼容。

因此这个问题自熊猫开发伊始就一直放下来了,会尽量在下个熊猫版本1.3或1.4中设计一种合适的兼容模式。

现有的采集模式,也准备了很多灵活的处理方法,几乎可以采集任意内容。也就是说,如果熟练掌握熊猫的设置方法,可以灵活应付各种特别情况,不必从源码中进行匹配。

例如,在内容页面匹配中,对于JS输出内容的采集,可以使用中介模式获取关键内容,并借助使用访问子项页面的方式,在子页面中直接针对url内容进行采集(需要在项目高级设置中,勾选“显示内容页面url”)。


谢谢你的建议,会给你的账号增加8万采集上限。



回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 网络信息采集 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4