试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

请教版主:能否以“新浪财经”网页为例,帮我分析一下如何设置采集选项?谢谢!

作者: danzui | 阅读: 37366/3   2013/12/1 19:22:45
 
版主你好,你的回复我仔细研究了一下,还是没摸到头绪,能不能麻烦您教我一下。以新浪财经网页(http://finance.sina.com.cn/)为例,我想把该页面上所有链接地址中含有"/stock/"或"/china/"关键字的链接,将其链接所在文字,以及该链接的地址采集进来,而无需采集每个链接所代表的页面里的具体内容。请问该如何做?谢谢!




2 楼: danzui 2013/12/1 20:01:52
 
(补充)
为什么只采集标题,不关心内容,主要是因为我想知道在过去的每段时长内(比如每1小时)又有哪些新的新闻,对于这些新闻,我只想粗略地看一下标题,如果对某新闻特别感兴趣,则再去访问其地址。关于这一点,我通过你的指教,已经用“自定义模板”实现了。
但是还有另外两个问题我不懂:
1.我只想让红色框框框住遇到另一个问题,链接地址中含有"/stock/"或"/china/"关键字的链接,不知怎么做;
2.有的链接所在文字的内容,与该链接代表的页面的title内容是不一致的,而我只想获取链接所在文字的内容。这又该怎么办呢?
以上问题,恳请版主不吝赐教。

3 楼: danzui 2013/12/1 20:04:40
 
(以上有错字)

但是还有另外两个问题我不懂:
1.我只想让红色框框框住链接地址中含有"/stock/"或"/china/"关键字的链接,不知怎么做;
2.有的链接所在文字的内容,与该链接代表的页面的title内容是不一致的,而我只想获取链接所在文字的内容。这又该怎么办呢?
以上问题,恳请版主不吝赐教。


4 楼: 测试专用账号 2013/12/1 21:30:32
 

1、最简单的实现,就是打开项目高级设置对话框,在结果的过滤标签中,新增一个过滤规则,针对入口网址进行关键词过滤即可。

2、这个问题你在前面帖子中问过如何采集“列表页面”中链接的文字。在里面已经详细回答了。http://www.ah668.com/lt/Read/index.asp?id=266


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 简历采集器 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4