试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

★★★求阿里巴巴产品详细图片采集方式!

作者: benyes | 阅读: 52243/1   2013/4/6 11:40:46
 
http://detail.china.alibaba.com/offer/1100704940.html

像这样的网站,必须用浏览器打开才会加载图片。试过用模拟登录动态COOKIE都不行。是否我不会设置还是软件不支持这类网站?

求高手解。

谢谢。


2 楼: 测试专用账号 2013/4/6 15:14:35
 
用熊猫当然是可以采集的。

你这个例子具有典型性。淘宝的页面也类似。

这种页面,内部的详细介绍内容实用ajax 动态加载生成。因此只需要分析出实际的ajax请求地址即可。原理相当于页面内部内嵌窗口。

比如这个页面,其内部详细介绍内容的加载地址为:
http://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1100704940&memberId=qinshaotong123&callback=jQuery1720684040005194626_1365231302413

你可以在浏览器中直接打开该地址。

在熊猫中,对于这种JS动态加载的页面,不能通过常规方式进行获取,需要通过软件中提供的“中介方式”。

在“内容页面”设置对话框中,利用中介方式生成该地址,再通过子页面嵌套访问功能访问该页面。即可获取该页面内容。

需要特别的地方,这个页面的加载结果为JS代码形式,因此直接解析后的内容,可能不是你想要的结果。简单的办法是直接获取该页面的所有源代码,然后通过结果的修饰功能过滤、分离出里面的有效内容。

在项目高级设置中,“采集”标签内,勾选“输出页面源码”,即可在内容页面设置对话框中采集该页面的原始源码。

这种采集项目的设置确实有点复杂,但如果你使用过老式采集软件,则此处就应该不难。


所谓中介方式,也就是传统采集软件中基本的“标签方式”。比如这个例子中,生成内容部分页面URL的中介设置方式为:

offer_id:"{<_medi_>}",

http://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId={<_medi_>}&memberId=qinshaotong123&callback=jQuery1720684040005194626_1365231302413

具体操作请参考设置窗口右上角的实时帮助窗口中的介绍。购买商业版本后可以享受详细的远程技术支持。







回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 论坛内容采集工具 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4