试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

中国知网这样的怎么采集

作者: finddata | 阅读: 13670/9   2016/6/18 0:23:57
 
http://epub.cnki.net/kns/brief/default_result.aspx,我可以找到相信结果地址,但是一复制到采集标题页就提示不存在用户,没有办法分析呀 



2 楼: 2016/6/19 9:50:28
 
列表页实际网址:http://epub.cnki.net/kns/brief/brief.aspx?pagename=ASP.brief_default_result_aspx&dbPrefix=SCDB&dbCatalog=%e4%b8%ad%e5%9b%bd%e5%ad%a6%e6%9c%af%e6%96%87%e7%8c%ae%e7%bd%91%e7%bb%9c%e5%87%ba%e7%89%88%e6%80%bb%e5%ba%93&ConfigFile=SCDBINDEX.xml&research=off&t=1466301039933&keyValue=%E6%95%B0%E7%BB%84&S=1

访问的时候,带上cookie就可以了。

设置方法:项目高级设置-“登录”-输入网址:http://epub.cnki.net/kns/brief/default_result.aspx。然后去浏览器捕捉一个cookie填写到该处即可。

3 楼: 管理员 2016/6/19 9:52:19
 



4 楼: 2016/6/19 13:28:30
 
我后来也想到了cookie的问题,也做到了不提示用户不存在,但是并做不到你这样可以自动分析到页面参数,总是提示没有参数,我也设了翻页参数,可以翻页,但是并捕获捕了页面内容,我分析有一个请求cookie,一个相应cookie,我选择自动登录,复制任何一个cookie都不行。两个都复制吗?还是需要模拟手动登录?初学者,菜鸟一个,还请多多包涵 
   
   
   


5 楼: 2016/6/19 13:52:02
 
已经搞定了,多谢谢了!!!!

6 楼: 2016/6/19 17:30:18
 
实在不知道哪里错了,页面解析没有题名,真奇怪,麻烦管理员再帮我看看看!


7 楼: 管理员 2016/6/20 9:14:48
 
这个网站做的有点特别,标题部分才用了javascript动态输出的方式,查看源码可以看到标题是存在的,只是改成了javacript方式输出,这样正常的解析下,无法获取。

只需要做一个小的改动即可:

“标题列表页及其翻页”标签下,“请在此输入标题列表页的起始网址”输入框下方左侧,有个“剪刀”小图标,点击打开对列表页源码的修缮。然后新增一个修缮规则,输入:

<script language="javascript">document.write(ReplaceChar1(ReplaceChar(ReplaceJiankuohao(’’

就可以了。

8 楼: 2016/6/20 13:53:42
 

  管理员你好,我是菜鸟呀,怎么输入,替换?能截图说明下吗?

9 楼: 管理员 2016/6/20 15:21:21
 
在原内容输入框里面输入我上面粘贴给你的代码即可:

<script language="javascript">document.write(ReplaceChar1(ReplaceChar(ReplaceJiankuohao(

10 楼: finddata 2016/6/20 23:31:56
 
终于搞定了,不过还是略有瑕疵,在题名中显示了代码的括号!多谢管理员了! 



回复
 
 
 
验证码:
 
友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 车主信息采集软件 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4