试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

关于子页面的采集结果

作者: 殷冰 | 阅读: 2803/1   2021/3/19 15:50:28
 
所需采集的内容只有通过内容页面的子页面来采集,不采集内容页面,把子页面链接分析后采集到标题和内容,可是,内容页面是不同的,可是这些不同的内容页面可能会出现重复的子页面的所需采集的链接,结果,就会得到若干个同样的标题和内容的数据,如何去重呢?只保留第一次子页面采集到的内容,第二次及以后采集到的相同链接的子页面的内容数据时可以直接判断过滤或者废弃呢?这些子页面可能是不同一级页面的超链接,谢谢!


2 楼: 管理员 2021/3/22 12:16:09
 
不是很明白你描述的意思,请你直接把要采集的页面的网址发来看看。如果需要保密该网址,可以直接私信网站客服QQ或微信。


回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 通用数据采集器 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4