试用 购买
留言论坛
当前页面:熊猫智能采集软件> 留言论坛
发新贴

大数据目标栏目整体采集发布到科汛CMS文章系统的指定栏目(实战)

作者: 醉大鱼 | 阅读: 34376/3   2014/2/24 15:05:44
 
大数据目标栏目整体采集发布到科汛CMS文章系统的指定栏目(实战)
1准备工作:下载熊猫采集器,地址:http://www.caijiruanjian.com/down/
 
还需要下载Microsoft .NET Framework v2.0 也在下载页面
 

2注册账号:http://www.caijiruanjian.com/user/userAdd/
按要求填写注册信息
 
 
填好以后按确认注册,然后去注册时填写的邮箱完成注册验证。
3软件安装:先安装Microsoft .NET Framework v2.0在安装熊猫采集软件。
4:登陆软件 点击桌面 熊猫采集软件图标,登陆软件,第一次登陆软件会自动升级,然后填写刚才注册时的信息 
这样我们就完成的软件的下载注册和安装了。
5大数据目标栏目整体采集发布到文章系统的指定栏目,我们先登陆熊猫采集软件,
 
找到想采集数据网站栏目页http://www.XXXXXX.com/jbfz.asp?ClassID=80(域名中间部分就用X表示了)
 
点击熊猫采集软件左上角的  项目管理—选择新建项目(标准)跳出
 
项目名称写视频采集(可自己随意填写)其它默认就行,点左下角下一步设置,
 
在标题列表页的起始地址输入想要采集的地址,然后点击开始预分析,跳出的提示点:是,
分析后熊猫软件自动找到了翻页的链接,(红色框里就是翻页的链接)这是其它采集软件做不到的功能
 
 
看熊猫采集软件已经自动找到了下一页和尾页的链接和标题列表页面的翻页次数。并列出了相应的值(我们是整体采集所以标题列表页面的翻页次数我选择29)
然后点下一步设置,进入选择内容页
 
看熊猫软件已经为我们找到了内容的链接(红色框里面的),然后点下一步设置,进入内容页面模板管理,我选择的是方式1,使用自定义模板,(我个人喜欢用这个,有用的可以使用,没有的可以忽略)
 
这个页面时用来设置采集内容的,由于是栏目整体采集、,在中间部分 添加新的模板处输入想要采集内容页的地址,(也就是想要采集文章内容的详细页面)
 
然后点添加新的模板,
 
然后点击开始分析,跳出页面选择是 
跳出标题正文解析方式 
我选择的是精细,然后点开始分析,
 
熊猫自动采集已经为我们收集到了标题和正文,但是还需要设置下想要的标题和正文,
找到我们想要找的文章标题如图: 
点击想要的标题,然后在下面采集该项里选择采集存入到数据表,对应字段名选择标题,复合语句前的勾去掉, 
 
然后我们选择要采集的内容,在表里点击想要采集文章的开头字,
 
文章在右面红色的区域内,但是不完全,这样我们就需要使用复合语句了,
 
在表里点击文章开头文字,然后在下面采集该项里选择存入采集存储表,对应的字段名是正文,勾选复合语句,如果文章内容不完全,在表里继续点击想要采集文章的内容,并重复上面的操作,直到文章内容完整,到这里我们的采集工作就完成了。
下步我来测试采集:
 
先点启动该项目,进入定时等待按钮,然后在点 立即运行该项目,由于是测试请把下面的试运行前勾打上,我们来看看怎么样: 
看熊猫软件已经很轻松的批量采集到了文章的标题和内容,
下面我来进行最后一步,发布到自己的网站:
 
按照上图所示,在想要发布到网站得栏目上右键点击,然后按步骤,最后选择数据模拟发布的设置,然后在新窗口选择 
启用模拟WEB途径发布采集的功能,发布机制选择采集时同时发布,其它默认就行,然后进行登录的设置,我 选择了方式2模拟手动发布方式, 
然后点 访问并分析, 
看上图,熊猫软件已经自动分析并找到了相应的登录信息, 
在登录参数的设置与定义的栏目里填写网站后台登录的用户名,密码和认证码,
UserName==用户名  PWD==密码   AdminLoginCode ==认证码
然后点击验证登录, 
看,我们很轻松的验证并登录了网站后台,下步就到了发布页面的设置了, 
我们得先登录网站,找到后台发布文章页面的地址,在文章系统点击填加文章,
 
后台地址栏显示的地址并不是我们要发布文章页面的确切地址,我们在后台想要发布文章的页面右键点击选择属性,这样就得到了发布文章页面的确切地址,如图: 
图中红圈内就是发布页面的具体地址,我们复制,然后粘贴在  WEB发布页面的地址 然后按访问并分析, 
强大的熊猫采集软件在一次自动分析并列出了发布页面表的各项值,
首先要选择要发布文章对应的栏目,单击然后按确定,我选择的是病害, 接下来设置文章的标题和 正文,我选择的是方式1从采集结果中选择, 
在参数值列表里面找到title的参数,这个参数文章标题的参数, 
在参数值列表里面找到Content的参数,这个参数文章正文的参数, 
其它选择默认即可,我们点发布测试,看测试成功 
我们在到网站后台看下, 
刚才测试的文章已经成功发布,设置完成以后按确认键,然后就进入最后阶段了采集发布,
 点击启动和运行按键,嘿嘿,高兴吧,接下来信息就源源不断的采集入库了,
 
 


熊猫采集软件具有:操作简单 
功能全面、强大 不需要编写采集规则
不需要关心网页源码
全程鼠标操作
全程智能辅助
可一次性完整采集、完整发布
强大的自动分析能力 




2 楼: 醉大鱼 2014/2/24 15:06:47
 
图片太多了,我发布到百度文库了,一会附上地址~!!!!!!!!!!!

3 楼: 测试专用账号 2014/2/25 10:39:15
 
熊猫大力支持用户发布这种操作实战案例,这对于新手大有帮助。每个案例,会有接近30万许可量上限的赠送(http://www.caijiruanjian.com/user/mySoftWare/gross/)。

建议你配上图片,适当排版编辑好。等你上传到百度文库,正式发布后,再决定给你的许可量上限的赠送量。



4 楼: 2014/2/25 15:41:07
 
百度文库,上传几次都没被审核,只好上传百度网盘了
http://pan.baidu.com/s/1xQMVs

(实战)熊猫大数据目标栏目整体采集发布到CMS文章系统的指定栏目



回复
 
 
 
验证码:
 

电话:171 9219 7361

建议/合作: 139 1618 6547

邮箱:123jlxie@ 163.com

友情链接: 建筑结构软件 中国制造业博览 飞翔下载 好特下载 当下软件园 招标信息监控系统 六度软件下载 ZOL应用下载

Copyright @ 2011 www.CaiJiRuanJian.com All Rights Reserved 上海齐索信息科技有限公司 沪ICP备16048952号-4