试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

关于post类型的网站   如何获取内容页

作者: 六盘水联盟网 | 阅读: 10824/1   2015/5/4 15:50:42
 
post类型的政府网站    在抓取数据获得列表后    如何才能获得文章内容页?

   有教程没有?   急 啊!!   


   例如 http://www.gzlps.gov.cn/col/col18578/index.html  这个网站

   如何才能获得内容页   现在只会获得列表页。。。。。。



 求助!!


2 楼: 测试专用账号 2015/5/5 17:49:56
 
正如你说的,这个列表页面是POST类型,而且POST提交地址不是列表页面入口网址。实际POST提交网址为http://www.gzlps.gov.cn/module/jslib/jquery/jpage/dataproxy.jsp?perpage=10

 
  

设置方法:
1、首先在列表页面入口输入框中输入http://www.gzlps.gov.cn/module/jslib/jquery/jpage/dataproxy.jsp?perpage=10  ,并点击“开始进行预分析”按钮执行解析。虽然解析不出结果,但是这个过程必须有,才能继续后续的操作。

2、选中“POST模式”。选择“翻页方式2:自定义翻页参数”

3、在自定义翻页参数列表中,逐个新增翻页POST参数。具体的POST参数,可以用抓包软件获取下,逐个拷贝过来。用浏览器自带的抓包工具也可以。

4、在自定义翻页参数中,新增一个POST抓包结果没有的参数startrecord ,并选择赋值方式为“方法1:数值增减”,初始值0,目标值100? ,值变化步长10.

这个参数startrecord实际上是POST体检网址中存在的参数,作用是控制翻页。

5、此时可以点击“POST参数验证访问>>>”按钮,如果前面设置正确,此时的验证后,右边浏览器会出现有效结果。

6、在下一步的“选择内容页”中,选择“方式3:中介方式”,并依次输入:

/art/{<_medi_>}.html
http://www.gzlps.gov.cn/art/{<_medi_>}.html

此时如果点击“检查中介方式”,可能不会有有效结果。这是正常的,因为这是针对POST提交后的列表页面内容进行分析的。

至此就OK了,后面的操作参考常规操作。








回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 信息采集软件 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4