直接指定内容页面 帮助目录 词典
树形列表框内罗列了该列表页面内所有的链接,请从中点选指向目标内容页面的链接对象。熊猫采集系统会据此知道你想采集的内容页面的入口。
详:
系统会根据你的点选对象,自动判断分析出和该对象相关的其它所有相关链接。因此你不必再做其它设置。
如果在该树形列表框内没有找到你想要的页面的入口链接,说明该入口很可能是通过js方式进行访问的,当前版本的熊猫采集系统还不能成熟解决js的访问方式,因此你就需要从下面选择其它方式实现从列表页面到内容页面的引导。不排除是因为当前版本系统的不完善导致此处分析错误,此时你也应该选择下面的其他方式。
在你在树形列表框内点击某个链接对象时,列表框下面会出现该链接的可视化字符以及链接目标的网址url,如果出现这两项内容和实际情况不符的情况,说明从列表页面到内容页面的导向规则并不常规,你也应该选择下面的其他常规访问方式。
当在列表框内点选内容页面的链接时,窗口右边的浏览器内会显示出被点选对象,并用红色框框选目标对象以及目标对象的兄弟对象。标示所有框选对象都是入选的,也就是说所有框选对象都是目标内容页面的入口链接。请据此检查选择是否正确。
有时候,红色框框选的对象未必是合适的、全面的。此时可以点击"高级设定>>>",打开高级设置对话框,尝试修改高级对话框中的选择项,来使得红色框框选的对象是合适的、全面的。如果你不能有效理解高级选项中的内容的意义,则请点击<恢复默认>按钮,再勾选上"进行泛海选"选项,并确认退出。
如果红色框框选的对象是合适的,但不全面。此时应该点击"重定范围>>>",系统会尝试重新寻找范围,来囊括更多的入选对象。
如果红色框框选的对象的范围是合适的,框选了所有应该入选的对象,但也额外框选了不合适的内容。此时可以通过调整高级设置内的各项设定来调整结果外,也可以不必过问。因为在后面的模板匹配环节会自动对模板进行匹配度的筛选。过滤掉虽然入选但实际上并不合适的内容页面链接对象。虽然此时系统的采集运行效率可能会略微有所降低。