nutch+hadoop配置步骤及问题解决方法深入剖析

本节向大家介绍nutch+hadoop配置方面的内容，主要有nutch+hadoop配置的步骤和配置时出现的问题及解决办法，欢迎大家一起来学习，相信通过本节的介绍你会越到不少有关Hadoop的知识。

nutch+hadoop配置使用

配置nutch+hadoop

1，下载nutch。如果不需要特别开发hadoop，则不需要下载hadoop。因为nutch里面带了hadoopcore包以及相关配置

2，建立目录（根据自己喜好）
/nutch
/search(nutchinstallationgoeshere)nutch安装到这里，也就是解压到这里
/filesystemhadoop的文件系统存放点
/local/crawl后放置索引用来search用的
/home(nutchuser'shomedirectory)如果你用系统用户，这个基本没用
/tomcat启动nutch.war用来search索引的app

3，conf/hadoop-env.sh一定要配置JAVA_HOME,否则系统起不来

4，配置master和slave的ssh，否则每次都要输入passwd
ssh-keygen-trsa
然后回车即可
cpid_rsa.pubauthorized_keys
（copy到其它的slave上）scp/nutch/home/.ssh/authorized_keysnutch@devcluster02:/nutch/home/.ssh/authorized_keys

5，将bin和conf下所有的.sh、nuch、hadoop文件dos2unix
dos2unix/nutch/search/bin/*.sh/nutch/search/bin/hadoop

配置hadoop-size.xml

6，记住要把master文件从nutch/hadoopcopy到这个nutch中，应该是bug。也就是说启动需要这个文件，文件内容为默认的localhost即可（如果是分布式，可能需要配置）

7，nutch+hadoop配置过程中需要格式化namenode
bin/hadoopnamenode-format #p#

8，启动：bin/start-all.sh

9，配置crawl（以配置一个网址lucene.apache.org为例）

 
 
 
  
  
  cd/nutch/search    
  
  mkdirurls    
  
  viurls/urllist.txthttp://lucene.apache.org    
  
  cd/nutch/search    
  
  bin/hadoopdfs-puturlsurls    
  
  cd/nutch/search    
  
  viconf/crawl-urlfilter.txt    
  
  changethelinethatreads:+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/    
  
  toread:+^http://([a-z0-9]*\.)*apache.org/

10，启动crawl
bin/nutchcrawlurls-dircrawled-depth3

11，查询
bin/hadoopdfs-copyToLocalcrawled/media/do/nutch/local/(crawled)将index的东西copy到以上配置的local中，因为search不能用dfs中搜索(从文档看是这样)

12，启动nutch.war，测试
vinutch-site.xmlnutch.war中classes下
starttomcat

注意点：
1，masters文件nutch原来没有，需要copy到conf下
2，crawl的log4j配置默认有问题，需要增加：
hadoop.log.dir=.
hadoop.log.file=hadoop.log
3，nutch1.0一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。

nutch+hadoop配置使用时的问题：
1，运行hadoop程序时，中途我把它终止了，然后再向hdfs加文件或删除文件时，出现Namenodeisinsafemode错误：
rmr:org.apache.hadoop.dfs.SafeModeException:Cannotdelete/user/hadoop/input.Namenodeisinsafemode
解决的命令：
bin/hadoopdfsadmin-safemodeleave#关闭safemode
索引命令：
bin/nutchindexplainindex/paodingindexesplainindex/crawldbplainindex/linkdbplainindex/

segments/20090528132511plainindex/segments/20090528132525plainindex/segments/20090528132602
eg：
index：
bin/nutchindexcrawled/indexes_newcrawled/crawldbcrawled/linkdbcrawled/segments/20100313132517
merge：
bin/nutchmergecrawled/index_newcrawled/indexes_new
去重dedup：
bin/nutchdedupcrawled/index_new。本节关于nutch+hadoop配置使用介绍到这里。

分享名称：nutch+hadoop配置步骤及问题解决方法深入剖析
网页URL：https://chengdu.cdxwcx.cn/article/dhjjjge.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

nutch+hadoop配置步骤及问题解决方法深入剖析

其他资讯

cdn缓存原理及方法是什么「cdn缓存原理及方法是什么意思」

香港虚拟主机选哪家好？（哪里的虚拟主机便宜）

csrf校验失败是什么意思(CRC校验错误，文件被破坏？)

第五人格区号是什么？南非服务器名字

远程桌面连接时提示终端服务器超出了最大允许连接数解决方法小结

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

nutch+hadoop配置步骤及问题解决方法深入剖析

其他资讯

cdn缓存原理及方法是什么「cdn缓存原理及方法是什么意思」

香港虚拟主机选哪家好？（哪里的虚拟主机便宜）

csrf校验失败是什么意思(CRC校验错误，文件被破坏？)

第五人格区号是什么？南非服务器名字

远程桌面连接时提示终端服务器超出了最大允许连接数解决方法小结

成都网站建设设计将想法与焦点和您一起共享