火车头采集器 火车头采集网站内页URL(图文)教程!
指南:通过机车采集器,采集网站指定栏目下的URL,对采集到的URL进行分析,查看未列出的情况,对未列出的URL进行处理,推动上市。
如果列页面中没有规则,则需要单独处理。一般来说,栏目页面分类是有一定规则的。
先学会阅读:要收集网站信息栏的URL,需要对栏目页面的分页URL有一定的规则,比如:
http://www.hdfj11.com/news/1.html
http://www.hdfj11.com/news/2.html
http://www.hdfj11.com/news/3.html
http://www.hdfj11.com/news/4.html
算术级数
http://www.hdfj11.com/news/1.html
http://www.hdfj11.com/news/2.html
http://www.hdfj11.com/news/4.html
http://www.hdfj11.com/news/8.html
几何级数
对于企业站点优化,经常更新的栏目是信息页面,每天都会更新一些信息。长期以来,我们不知道哪些被收录了,尤其是对于大量更新的网站。下面的小系列将讲解如何通过机车收集URL。
1.下载机车采集器
自行搜索下载。
2.登录机车
不需要注册,直接登录即可。
3.单击-新建-新建组-名称组“网址集合”
文章图片
4.点击选择-网址收藏-点击“新建”-新建一个任务,弹出一个新窗口,命名为:华东范标题网址收藏
文章图片
然后点击添加,如图:
文章图片
5.这时会出现一个新窗口,“添加开始采集网址”-“批量/多页”选择卡。
对于我们收集的信息页面,直接进入“华东风电”网站的“信息”页面,填写信息页面第一页的url,然后选择“1”,用通配符替换。
文章图片
6.将“项目编号”修改为10。在这里,我只收集10页的文章URL。然后点击“添加”。“添加”完成后,单击“完成”。
注意:案例网站来自等差数列,遵循第一条规则就够了。
文章图片
7.点击“完成”返回该界面,然后点击下面的“测试网址集合”,如下图所示,选择一个,点击“测试本页”。
文章图片
8.进入此页面后,选择“来源”,点击左边的“删除”,“时间”,“作者”,点击左边的“删除”,选择“标题”,点击左边的“删除”,只留下“内容”,然后勾选“添加为新记录”
文章图片
9.选择内容,点击【修改】,弹出下图:
文章图片
10.这是关键点。我们选择的采集规则是前后截取,返回网站,然后进入栏目页面,Ctrl+u查看源代码,找到文章标题URL,在标题URL前面选择一个代码,复制粘贴到机车“开始字符串”框中。
文章图片
推荐阅读
- 游漫谈:或对NS造成冲击?WiiU模拟器即将开源
- 云顶S6“最垃圾”的装备:曾是公认的连胜神器
- DNF:稀有武器装扮怎么选?2种技能最优推荐
- lol:英雄联盟早期英雄设计草稿欣赏
- 我国运动康复供需不足,数字疗法探索传感器远程指导康复
- DNF:“保姆级”攻略?稀有武器装扮解析
- 我国自主研发单臂腔镜手术机器人完成首例临床试验
- “机器换人”,更多!更快!更省力!
- 女子肾上长了核桃大的肿物 ,达芬奇机器人辅助15分钟切除
- 不会选体检套餐、看不懂体检指标?“华疗健康指数”助力评估每个器官健康