注意这个网站的翻页参数比较典型。所以顺带做一个说明,这个网站的翻页需要使用“方式2:参数值列表”的方式才能顺利通过。因为对方网站的列表页的第一页,如果按照数值增减模式,网址应该是http://www.ccgp.gov.cn/cggg/dfgg/gkzb/index_0.htm ,但是该网址无法访问通过。因此需要改用方式2:参数值列表方式来实现。注意参数值列表输入框中,第一个逗号,的前面,是没有内容的,意思是为空。
点击“下一步设置>>”按钮,进入“选择内容页”标签,此时可以看到系统已经为你挑选了所有的内容页。此时我们只需要检查一下右边浏览器中,红框框选范围是否对的,如果是对的,则直接忽略进入下一步,如果不对,则手工干预一下,或者点击“方式1:直接指定内容页页面(的链接)”的右边的“高级设定>>>",打开高级设定调整对话框,按需要调整后,再点击”重定范围>>>“即可。
点击设置窗口左下的“项目高级设置”按钮,打开项目高级设置对话框,选择“采集”标签。依次勾选“显示内容页面的Url”,“需要采集列表页面中链接所辖的内容”。如下图所示:
图示3:项目高级设置的选项
然后返回到刚才的“选择内容页”设置对话框中,可以看到在方式1的列表下面,会多出一个复选项按钮“需要同时采集该链接(在本页面内)所辖内容”,勾选该按钮即可。如下图:
图示4:勾选“需要同时采集该链接所辖的内容”
继续点击“下一步设置>>”按钮,进入“内容页面模板管理”标签中,选择默认的方式1:使用自定义模板。点击“添加新模板”按钮。打开默认设置对话框。如下图:
图示5:添加新模板
打开内容页面设置对话框后,此时内容页面设置对话框的左侧上方的列表中,会罗列从列表页中链接所辖内容。注意“可见性”列中,会标明这些信息的来源是来自于“父页面”。依次点击设置采集该项即可:
图示6:内容页面模板的采集设置
注意,如果只需要采集列表页内容,则不必点击“开始分析”按钮,但此时需要采集“(入口网址)”项。因为系统为每条记录都要区分来源网址,如果不选项采集“(入口网址)”项,则该列表页内所辖的几十条信息的数据来源网址,都会标注为该列表页的网址,入库存档的时候就会判断为重复数据而被舍弃。
图示7:选择采集“(入口网址)”
至此设置完成。依次点击确定按钮保存设置,回到软件主界面,点击界面中“项目属性”框右侧的“立即运行项目”按钮,或者在界面左侧项目名称列表中,选择该项目名称,然后右键弹出的菜单中选择“运行该项目”:
图示8:项目的运行的截图
电话:171 9219 7361
建议/合作: 139 1618 6547
邮箱:123jlxie@ 163.com