【蓝天采集器下载】蓝天采集器最新版 v2.3.3 免费版

软件介绍

知识兔

蓝天采集器是一款非常好用的爬虫系统,它可以部署在云端,支持各种CMS系统,可以帮助用户自动采集和实时发布数据。蓝天采集器使用起来也很方便,而且功能是完全免费的,没有任何使用限制,有需要的用户敬请下载。

软件介绍

蓝天采集器特色功能

知识兔

蓝天采集器致力于网站数据自动化采集发布,系统采用PHP+Mysql开发,可部署在云端服务器,使数据采集便捷化、智能化、云端化,让您随时随地移动办公!

数据采集

支持多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,绝大多数文章类型页面内容可实现智能识别

内容发布

无缝对接各类CMS建站程序,实现免登陆导入数据,支持自定义数据发布插件,也可以直接导入数据库、存储为Excel文件、生成API接口等

自动化及云平台

软件实现定时定量全自动采集发布,无需人工干预!内置云平台,用户可分享及下载采集规则,发布供求信息以及社区求助、交流等

蓝天采集器安装步骤

知识兔

将下载的软件上传至您的服务器,如果根目录有站点建议放在子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录的名称),进入安装界面

安装步骤1

点击“接受”,进入环境检测页面

安装步骤2

必须确保所有参数都正确,否则使用中会出现错误,点击“下一步”进入数据安装界面

安装步骤3

填写好数据库及创始人配置,点击“下一步”

安装步骤4

最后安装完成,现在可以使用蓝天采集器了!

蓝天采集器使用教程

知识兔

创建任务

登录后台,左侧导航中点击“添加任务”

使用教程1

添加任务页面

“导入任务”可以复制其他任务的所有设置(包括采集器设置、发布设置)

“导入规则”可以从其他任务或文件中复制采集器设置

“更多设置”可以为任务单独配置采集设置

使用教程2

采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

输入采集规则名称和目标网站编码(可自动检测)

页面渲染可自动加载出ajax内容,适用于js脚本较多的页面

自动补全网址可以将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)

网址不排重,默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面

修改请求头信息以适应需要登录的、手机浏览的等界面

使用教程3

起始页网址

添加需要采集的目标列表页

点击“+”号可批量添加网址,勾选“设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址

使用教程4

内容页网址

编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”

使用教程5

多级网址获取:适用于小说、影视等连载形式的内容

只要内容页网址不是直接从起始页抓取的,都可以通过多级来获取

使用教程6

使用教程7

关联页网址获取:适用于数据分散在多个页面中

如需要抓取的字段不在内容页,而在其他页面中,则可以使用该功能将其他页面也作为内容源

使用教程8

使用教程9

获取内容

“添加默认”可以自动设置几个常见的字段,能满足大部分文章类型的站点采集

如果目标数据格式比较复杂,可点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种匹配方式

使用教程10

“数据处理”可将采集到的字段值进行过滤或替换内容,每个字段都可单独处理或使用通用处理

使用教程11

如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容

使用教程12

测试规则

采集器配置完成后需点击保存按钮,刷新后可在“内容页网址”选项卡和“获取内容”选项卡中看到测试按钮

测试列表页中抓取网址

使用教程13

测试页面中抓取数据

使用教程14

测试抓取分页

使用教程15

发布设置

点击任务底部进度条的“发布设置”,选择发布方式

本地cms程序

可自动检测出服务器中的CMS程序,实现蓝天采集器和cms无缝对接

使用教程16

简单绑定对应的数据,不用登录即可入库,你还可以自行开发cms插件,理论上可实现任何CMS的任意入库操作

使用教程17

数据库

直接将数据入库,配置好数据库参数点击“数据表”

使用教程18

绑定数据表的字段和采集器的字段,多张表关联自增id,选择“自定义内容”输入“auto_id@表名”即可

使用教程19

存储为文件

支持Excel表格(xlsx或xls格式)、txt文本,隐藏采集字段可设置不写入文件的字段

使用教程20

生成api接口

可直接调用采集到的数据

使用教程21

调用接口

只要有相应cms的入库接口,就可以将数据远程发布到网站中,不必将采集器和网站放在同一服务器

使用教程22

当数据发送至远程接口并入库后需要返回响应状态,这样采集器才能正确记录数据的状态并用来进行排重处理

你只需要在接口代码最后或者数据入库后插入代码

exit(json_encode(数组));//数组必须是键值对形式,这样在响应状态中就可以直接绑定接口中返回的数组键名

自定义插件

适用于任何网站程序,按要求创建插件文件并编写代码即可

使用教程23

下载仅供下载体验和测试学习,不得商用和正当使用。

下载体验

请输入密码查看下载!

如何免费获取密码?

点击下载

标签

发表评论