过滤掉单个采集对象所属的某单一子表下的重复采集内容 帮助目录 词典
指对某个采集内容集合内的具有重复子项性质的子项内容,是否进行内容完全重复的判断,并删除内容完全重复的子项内容。
详:
正常情况下,系统会记录某个内容对象集合下重复子项内容的url地址,且不访问重复出现的url地址。因此可以避免产生内容完全重复的子项内容。但有些场合,同样的内容,网址会有所不同,此时就必要勾选此项,对子项内容进行是否重复的比对,并删除重复的内容(虽然url会不一样)。
注意,此处过滤的对象,指采集对象的重复子项内容,不是指采集对象自身出现重复内容。熊猫采集的内容,可以是一个“对象集合”,这个集合内,有一个主表,并有若干隶属子表,此处的过滤对象,即是指对象的子表内,隶属主表内某一个对象记录的子项内容出现重复。但此处的过滤,是不会查询数据库,而是仅针对此次采集结果内容进行过滤。因此理论上(自动更新模式下),最终数据库内子表内容还是可能会因为Url的差异而产生若干误差。之所以此处不对数据库子表进行重复项的查询,一是因为这种查询非常消耗系统资源,并浪费时间,另一方面,也是因为这种理论误差最终产生的可能性非常低,可以忽略。
此项的修改可以随时进行。