试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

天涯论坛的采集

作者: 1234qwe1 | 阅读: 111777/6   2015/12/20 11:51:46
 
天涯论坛列表页http://bbs.tianya.cn/ 下的翻页要怎么设置,它是javacript,
而且自定义页面内容模板检查分析正确,但运行时报错 内容页面分析失败:http://bbs.tianya.cn/list-stocks-1.shtml ,程序退出,为什么会这样,


2 楼: 管理员 2015/12/21 12:37:56
 
你的方法很不对。需要再看看演示视频。

用该http://bbs.tianya.cn/ 页面作为采集入口的“标题列表页”,是不合适的。应该点击该页面内翻页链接后面的“更多”按钮,打开真正的标题列表页:http://bbs.tianya.cn/hotArticle.jsp


你提到的这个http://bbs.tianya.cn/list-stocks-1.shtml  页面,不是合适的“内容页”。本身是一个标题列表页。除非需要用多标题列表页面嵌套访问的方式,否则需要调整。


你提到的分析过程程序退出,我用该网址作为内容页面模板网址进行测试分析了一下,没有崩溃,只是分析过程耗时较长。

3 楼: 2015/12/21 19:24:48
 
谢谢回复,多标题列表页面嵌套访问的方式是要怎么设置的,我是要把整个天涯的内容都采集到,内容页面模板是不是得有多个,并且那个重定范围是怎么设置,看了教程找不到修改的地方

4 楼: 2015/12/21 19:30:27
 
从这个页面开始http://bbs.tianya.cn/hotArticle.jsp,要采集的内容是要经过多个列表页才能得到,这得一个一个配置模板吗,要怎么嵌套?谢谢

5 楼: 2015/12/21 21:57:48
 
天涯每个帖子下面的回复有100楼,难道要建立100多个表吗,怎么循环设置,问的问题好像想有点多,希望指教一下

6 楼: 管理员 2015/12/22 14:08:04
 
两种办法,先说前面提到的“多层标题列表页嵌套访问”的方式的实现:

1、第一步,用天涯论坛首页或任意栏目作为采集入口页面,选择内容页中如下选择: 
  
2、用任意栏目作为内容页面模板,进入该模板设置页面,选择任一内容页面列表内容后,勾选“该链接为指向下级子页面的链接”,并勾选“具有多个重复子项”,如图:
 
  

3、然后点击“分析该链接指向的页面”按钮。进入内容页面的采集设置,就可以了。有两层列表页嵌套。
4、第二层列表页的翻页设置,如下图:

 


7 楼: 管理员 2015/12/22 14:12:33
 
这种列表页嵌套访问的方式,并不推荐使用。推荐使用第二种更直观的方式实现多栏目的合并采集,如下图:

 
  
只需要将栏目页面的url关键词用翻页参数进行替换,即可。参数赋值方式选择“参数列表”,并输入每个栏目的关键词,逗号分隔。

如果是想监控天涯论坛。一般推荐使用天涯的关键词搜索功能进行论坛监视。也可以借助第三方搜索引擎的站内查询语法进行监测,如:

site:tianya.cn 舆情




回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 ecshop采集 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4