火车头采集器 火车头采集网站内页URL(图文)教程!

指南:通过机车采集器,采集网站指定栏目下的URL,对采集到的URL进行分析,查看未列出的情况,对未列出的URL进行处理,推动上市。
如果列页面中没有规则,则需要单独处理。一般来说,栏目页面分类是有一定规则的。
先学会阅读:要收集网站信息栏的URL,需要对栏目页面的分页URL有一定的规则,比如:
http://www.hdfj11.com/news/1.html
http://www.hdfj11.com/news/2.html
http://www.hdfj11.com/news/3.html
http://www.hdfj11.com/news/4.html
算术级数
http://www.hdfj11.com/news/1.html
http://www.hdfj11.com/news/2.html
http://www.hdfj11.com/news/4.html
http://www.hdfj11.com/news/8.html
几何级数
对于企业站点优化,经常更新的栏目是信息页面,每天都会更新一些信息。长期以来,我们不知道哪些被收录了,尤其是对于大量更新的网站。下面的小系列将讲解如何通过机车收集URL。
1.下载机车采集器
自行搜索下载。
2.登录机车
不需要注册,直接登录即可。
3.单击-新建-新建组-名称组“网址集合”

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

4.点击选择-网址收藏-点击“新建”-新建一个任务,弹出一个新窗口,命名为:华东范标题网址收藏

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

然后点击添加,如图:

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

5.这时会出现一个新窗口,“添加开始采集网址”-“批量/多页”选择卡。
对于我们收集的信息页面,直接进入“华东风电”网站的“信息”页面,填写信息页面第一页的url,然后选择“1”,用通配符替换。

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

6.将“项目编号”修改为10。在这里,我只收集10页的文章URL。然后点击“添加”。“添加”完成后,单击“完成”。
注意:案例网站来自等差数列,遵循第一条规则就够了。

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

7.点击“完成”返回该界面,然后点击下面的“测试网址集合”,如下图所示,选择一个,点击“测试本页”。

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

8.进入此页面后,选择“来源”,点击左边的“删除”,“时间”,“作者”,点击左边的“删除”,选择“标题”,点击左边的“删除”,只留下“内容”,然后勾选“添加为新记录”

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

9.选择内容,点击【修改】,弹出下图:

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

10.这是关键点。我们选择的采集规则是前后截取,返回网站,然后进入栏目页面,Ctrl+u查看源代码,找到文章标题URL,在标题URL前面选择一个代码,复制粘贴到机车“开始字符串”框中。

火车头采集器 火车头采集网站内页URL(图文)教程!


文章图片

火车头采集器 火车头采集网站内页URL(图文)教程!

推荐阅读