 
 本节向大家介绍nutch+hadoop配置方面的内容,主要有nutch+hadoop配置的步骤和配置时出现的问题及解决办法,欢迎大家一起来学习,相信通过本节的介绍你会越到不少有关Hadoop的知识。

nutch+hadoop配置使用
配置nutch+hadoop
1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoopcore包以及相关配置
2,建立目录(根据自己喜好)
 /nutch
 /search(nutchinstallationgoeshere)nutch安装到这里,也就是解压到这里
 /filesystemhadoop的文件系统存放点
 /local/crawl后放置索引用来search用的
 /home(nutchuser'shomedirectory)如果你用系统用户,这个基本没用
 /tomcat启动nutch.war用来search索引的app
3,conf/hadoop-env.sh一定要配置JAVA_HOME,否则系统起不来
4,配置master和slave的ssh,否则每次都要输入passwd
 ssh-keygen-trsa
 然后回车即可
 cpid_rsa.pubauthorized_keys
 (copy到其它的slave上)scp/nutch/home/.ssh/authorized_keysnutch@devcluster02:/nutch/home/.ssh/authorized_keys
5,将bin和conf下所有的.sh、nuch、hadoop文件dos2unix
 dos2unix/nutch/search/bin/*.sh/nutch/search/bin/hadoop
配置hadoop-size.xml
6,记住要把master文件从nutch/hadoopcopy到这个nutch中,应该是bug。也就是说启动需要这个文件,文件内容为默认的localhost即可(如果是分布式,可能需要配置)
7,nutch+hadoop配置过程中需要格式化namenode
 bin/hadoopnamenode-format #p#
8,启动:bin/start-all.sh
9,配置crawl(以配置一个网址lucene.apache.org为例)
- cd/nutch/search
- mkdirurls
- viurls/urllist.txthttp://lucene.apache.org
- cd/nutch/search
- bin/hadoopdfs-puturlsurls
- cd/nutch/search
- viconf/crawl-urlfilter.txt
- changethelinethatreads:+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
- toread:+^http://([a-z0-9]*\.)*apache.org/
10,启动crawl
 bin/nutchcrawlurls-dircrawled-depth3
11,查询
 bin/hadoopdfs-copyToLocalcrawled/media/do/nutch/local/(crawled)将index的东西copy到以上配置的local中,因为search不能用dfs中搜索(从文档看是这样)
12,启动nutch.war,测试
 vinutch-site.xmlnutch.war中classes下
 starttomcat
注意点:
 1,masters文件nutch原来没有,需要copy到conf下
 2,crawl的log4j配置默认有问题,需要增加:
 hadoop.log.dir=.
 hadoop.log.file=hadoop.log
 3,nutch1.0一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。
 nutch+hadoop配置使用时的问题:
 1,运行hadoop程序时,中途我把它终止了,然后再向hdfs加文件或删除文件时,出现Namenodeisinsafemode错误:
 rmr:org.apache.hadoop.dfs.SafeModeException:Cannotdelete/user/hadoop/input.Namenodeisinsafemode
 解决的命令:
 bin/hadoopdfsadmin-safemodeleave#关闭safemode
 索引命令:
 bin/nutchindexplainindex/paodingindexesplainindex/crawldbplainindex/linkdbplainindex/
segments/20090528132511plainindex/segments/20090528132525plainindex/segments/20090528132602
 eg:
 index:
 bin/nutchindexcrawled/indexes_newcrawled/crawldbcrawled/linkdbcrawled/segments/20100313132517
 merge:
 bin/nutchmergecrawled/index_newcrawled/indexes_new
 去重dedup:
 bin/nutchdedupcrawled/index_new。本节关于nutch+hadoop配置使用介绍到这里。