【Nutch下载】Nutch爬虫软件 v2.3.1 官方版
软件介绍
Nutch爬虫软件是一款开源免费的搜索工具,相比商业搜索引擎的竞价排名,Nutch搜索工具只是一款纯粹的搜索工具,你不用担心在你的搜索首页出现一堆的商业广告,这款软件除了分享全文搜索还为用户分享了Web爬虫服务。
软件特色
Nutch爬虫软件每个月取几十亿网页。
为这些网页维护一个索引方便使用。
对索引文件进行每秒上千次的搜索。
可以为用户分享高质量的搜索结果。
使用方法
1. 创建一个新的WebDb (admin db -create).
2. 将抓取起始URLs写入WebDB中 (inject).
3. 根据WebDB生成fetchlist并写入相应的segment(generate).
4. 根据fetchlist中的URL抓取网页 (fetch).
5. 根据抓取网页更新WebDb (updatedb).
6. 循环进行3-5步直至预先设定的抓取深度。
7. 根据WebDB得到的网页评分和links更新segments (updatesegs).
8. 对所抓取的网页进行索引(index).
9. 在索引中丢弃有重复内容的网页和重复的URLs (dedup).
10. 将segments中的索引进行合并生成用于检索的最终index(merge).
安装方法
一、安装jdk
1、把所用到的软件拷进 /home/ubuntu? 路径下,即主文件夹下
2、在 /mnt? 路径下建立tool文件夹,并把tool变为一般用户权限
cd /mnt
mkdir tool
chown –R ubuntu:ubuntu tool
3、进入tool文件,并建立java 文件夹,改为一般用户权限
cd tool
mkdir java
chown –R ubuntu:ubuntu java
4、把jdk拷进/mnt/tool/java路径下,并进行解压
cd java
cp /home/ubuntu/jdk-6u24-linux-i586.bin/mnt/tool/java
sudo sh jdk-6u24-linux-i586.bin
chown –R ubuntu:ubuntu jdk1.6.0_24
5、配置jdk环境变量
sudo gedit /etc/environment
打开文件后添加PATH中添加 /mnt/tool/java/jdk1.6.0_24/bin
export?JAVA_HOME=/mnt/tool/java/jdk1.6.0_24?
export?JRE_Home=/mnt/tool/java/jdk1.6.0_24/jre?
export?CLASSPATH=$CLASSPATH:$JAVA_HOME/bin:$JAVA_HOME/jre/lib
配置第二个文件?
Sudo gedit /etc/profile
在root 权限进行验证
java -version
自己可以再验证 java和javac 命令。正常则安装成功
二、安装tomcat
1、在/mnt/tool 路径下新建文件夹 Tomcat,并把apache-tomcat-7.0.27.tar.gz拷进去进行解压
cd /mnt/tool
mkdir Tomcat
chown –R ubuntu:ubuntu Tomcat
cd Tomcat
cp /home/ubuntu/apache-tomcat-7.0.27.tar.gz/mnt/tool/Tomcat
2、进入Tomcat路径,更改文件名,并修改权限,删除原来压缩包
chown –R ubuntu:ubuntu apache-tomcat-7.0.27
mv apache-tomcat-7.0.27tomcat7
rm –rf apache-tomcat-7.0.27.tar.gz
3、进入bin路径,配置catalina.sh文件
cd tomcat7/bin
sudo gedit catalina.sh
在cygwin=false上面添加
JAVA_HOME=/mnt/tool/java/jdk1.6.0_24
JAVA_OPTS=”-server?-Xms512m?-Xmx1024m?-XX:PermSize=600M?-XX:MaxPermSize=600m?-Dcom.sun.management.jmxremote”
4、配置 environment文件
sudo gedit /etc/environment
5、启动,进入/mnt/tool/Tomcat/tomcat7/bin路径,启动tomcat
./startup.sh
打开浏览器输入? http://localhost:8080/
Tomcat 安装成功
三、安装nutch
1、把nutch-1.2拷进 /mnt/tool 下,并对其解压
cp /home/ubuntu/apache-nutch-1.2-bin.tar.gz /mnt/tool
2、更改权限并删除原压缩包
Chown –R ubuntu:ubuntu nutch-1.2
rm –rf?apache-nutch-1.2-bin.tar.gz
下载仅供下载体验和测试学习,不得商用和正当使用。
发表评论