试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

采集问题 请教技术员

作者: aass2swd | 阅读: 17526/1   2016/4/21 14:05:50
 
昨天刚下载的软件,还有几个地方看不明白,如果说我不想采集文章的正文,只想要标题、时间、还有URL,请问怎么操作呢(我看到软件设置那正文还有标题都是必须选的取消不掉)

还有一个问题软件上只有过滤不想要的关键词吗。  那个保留命中项 意思是不是说我保留下面我要填的关键词呢


2 楼: 管理员 2016/4/21 16:52:08
 
第一个问题,选择新建项目(标准)模式。参考演示视频《常规采集》中的演示,进行操作。然后点击设置对话框左下的“项目高级设置”按钮,打开项目高级设置对话框,选择“采集”标签,然后勾选“显示内容页面的Url”,此时在自定义模板设置对话框的左侧列表中,就会出现该页面的入口URL和实际URL,共采集选择。

如果只要文章的标题、正文、URL。可以使用一种快捷方式,直接从“标题列表页”中采集这些内容(如果标题列表页中有这些内容的话)。

操作方法:在项目高级设置对话框中,选择“采集”标签,勾选“显示内容页面的URL”,“需要采集列表页面中链接所辖内容”。
保存后,返回“选择内容页”设置标签,找到并勾选“需要同时采集该链接(在本页面内)所辖的内容”。

此时再进入自定义模板页面设置界面时,左侧列表上方就会出现“标题列表页”中的相关信息,直接设置采集即可,不必再点击“开始分析”按钮。此种方法,可以不必访问下载、解析内容页面,因此采集速度极快。


第二个问题,关于“结果的过滤”,默认的过滤设置,是“保留”命中的关键词的采集结果。你可以选择过滤方式为“丢弃”,则会丢弃命中的采集结果。

还可以同时新增多个过滤规则,来实现复杂的逻辑规则。


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 名录采集软件 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4