【火车头采集器】火车头采集器下载 v9.7 官方版

软件介绍

知识兔

火车头采集器是一款功能全面的网络工具,用户可以使用这款软件对指定的网站的进行内容采集,并且对这些内容进行统一处理进行导出,可以让用户快速填充自己的网站或者公众号的内容。

火车头采集器截图

软件特色

知识兔

1、无限级多页采集,可以实现无限深度的采集

2、任务队列运行管理,支持Cron表达式

3、无限级分组任务管理,任务回收站功能

4、RSS地址采集功能

5、列表页分页采集获取功能

6、列表页附加参数获取功能

7、列表页及标签XPath可视化提取功能

8、标签纯正则替换功能

9、Http接口查看运行情况

10、导出记录为单个或多个Txt、html文件

11、标签间自由组合功能

12、针对标签内容继续发送Http请求功能

13、无限级列表网址采集

14、从Http头信息中获取数据

15、标题内容正文提取功能

16、Aspx列表分页自识别

17、多网站站群式web发布

18、导出记录为Word格式

19、导出所有记录为Excel格式

20、使用随机二级(支持Socket代理)

21、多扩展间数据交换功能

22、下载的图片自动加增强型水印功能

23、Ocr识别(图片转化为文字)

24、Http接口管理采集器运行

25、Mongodb数据库保存数据

26、主从服务器分布式采集

使用方法

知识兔

1.在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。

第1步

2.在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。

第2步

3.接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。

第3步

4.然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。

第4步

5.在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2″。

第5步

6.接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为”“、””.

第6步

7.利用同样的方法添加其它采集内容的规则。切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。

8.最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。

第8步

常见问题

知识兔

火车头采集器怎么采集文章?

在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。然后点击测试按钮测试所填信息的正确性:测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则进行采集。

安装方法

知识兔

1、等待火车采集器下载完成,然后解压缩并双击exe文件,进入安装向导,点击下一步。

步骤1

2、点击【浏览】设置软件的安装位置,然后点击【安装】。

步骤2

3、稍等片刻即可安装成功,如果需要立即使用的话,则勾选【运行 火车采集器 9.3】选项,最后点击【完成】即可。

步骤3

更新日志

知识兔

1、屏蔽掉httpwebpost中浏览器的脚本错误提示

2、修复使用偏好中的采集器没有开机启动和关闭窗口选项没有启用的bug

3、对mysql和sqlserver做本地服务器建了索引,解决了大数据量时查询出错的问题

4、细节修改,如在线发布里面的COOKIS可以全选,多页默认传前页user-agent给多页

5、增加了多个任务在只使用一个任务运行窗口,减少资源使用

6、火车头采集器更改任务运行完关机方式为只生效一次

7、修复一个当多页获取为空时网址成默认页的bug

8、插件中没有处理 UseGetStepUrls 的bug

下载仅供下载体验和测试学习,不得商用和正当使用。

下载体验

请输入密码查看下载!

如何免费获取密码?

点击下载

标签

发表评论