技术支持
当前页面:熊猫智能采集软件> 技术支持 > 新手入门

如何实现对“标题列表页(链接所辖)内容”的直接采集



部分场合下,可能需要对标题列表页中,链接所辖内容的采集。如下图(http://www.ccgp.gov.cn/cggg/dfgg/gkzb/index.htm)所示的,采集标题、时间、地域、采购人选项。
采集标题、时间、地域、采购人选项
图示1:采集标题、时间、地域、采购人选项
首先,从菜单:项目管理-新建项目(标准),打开标准模式设置对话框。依次填写项目名称,输入项目入口网址,并点击“开始进行预分析”,在弹出的“是否需要分析标题列表页翻页参数”对话框中,选择否。然后选择手工设置翻页参数,如下图所示。
手工设置翻页参数
图示2:手工设置翻页参数

注意这个网站的翻页参数比较典型。所以顺带做一个说明,这个网站的翻页需要使用“方式2:参数值列表”的方式才能顺利通过。因为对方网站的列表页的第一页,如果按照数值增减模式,网址应该是http://www.ccgp.gov.cn/cggg/dfgg/gkzb/index_0.htm ,但是该网址无法访问通过。因此需要改用方式2:参数值列表方式来实现。注意参数值列表输入框中,第一个逗号,的前面,是没有内容的,意思是为空。

点击“下一步设置>>”按钮,进入“选择内容页”标签,此时可以看到系统已经为你挑选了所有的内容页。此时我们只需要检查一下右边浏览器中,红框框选范围是否对的,如果是对的,则直接忽略进入下一步,如果不对,则手工干预一下,或者点击“方式1:直接指定内容页页面(的链接)”的右边的“高级设定>>>",打开高级设定调整对话框,按需要调整后,再点击”重定范围>>>“即可。

点击设置窗口左下的“项目高级设置”按钮,打开项目高级设置对话框,选择“采集”标签。依次勾选“显示内容页面的Url”,“需要采集列表页面中链接所辖的内容”。如下图所示:

项目高级设置的选项

图示3:项目高级设置的选项

然后返回到刚才的“选择内容页”设置对话框中,可以看到在方式1的列表下面,会多出一个复选项按钮“需要同时采集该链接(在本页面内)所辖内容”,勾选该按钮即可。如下图:

需要采集列表页面中链接所辖的内容

图示4:勾选“需要同时采集该链接所辖的内容”

继续点击“下一步设置>>”按钮,进入“内容页面模板管理”标签中,选择默认的方式1:使用自定义模板。点击“添加新模板”按钮。打开默认设置对话框。如下图:

添加新模板

图示5:添加新模板

打开内容页面设置对话框后,此时内容页面设置对话框的左侧上方的列表中,会罗列从列表页中链接所辖内容。注意“可见性”列中,会标明这些信息的来源是来自于“父页面”。依次点击设置采集该项即可:

 

内容页面模板的采集设置

图示6:内容页面模板的采集设置

注意,如果只需要采集列表页内容,则不必点击“开始分析”按钮,但此时需要采集“(入口网址)”项。因为系统为每条记录都要区分来源网址,如果不选项采集“(入口网址)”项,则该列表页内所辖的几十条信息的数据来源网址,都会标注为该列表页的网址,入库存档的时候就会判断为重复数据而被舍弃。

 

选择采集“(入口网址)”

图示7:选择采集“(入口网址)”

当然,如果需要同时采集该内容页的其他内容,此时可以点击“开始分析”按钮,按普通的采集方式对待即可。此时也不必勾选采集“(入口网址)”项。

至此设置完成。依次点击确定按钮保存设置,回到软件主界面,点击界面中“项目属性”框右侧的“立即运行项目”按钮,或者在界面左侧项目名称列表中,选择该项目名称,然后右键弹出的菜单中选择“运行该项目”:

项目的运行的截图

图示8:项目的运行的截图

如果只需要采集列表页内容,因为不需要下载访问内容页,则采集过程速度飞快。
副标题:
友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4