java - 索引器:java.io.IOException:作业失败
问题描述
我正在使用 Solr 5.4.1 和 Apache Nutch 1.12。我能够爬取数据,但在 Solr 索引的最后一步中,我遇到了以下错误。
SOLRIndexWriter
solr.server.url : URL of the SOLR instance
solr.zookeeper.hosts : URL of the Zookeeper quorum
solr.commit.size : buffer size when sending to SOLR (default 1000)
solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
solr.auth : use authentication (default false)
solr.auth.username : username for authentication
solr.auth.password : password for authentication
SolrIndexer: deleting 1/1 documents
SolrIndexer: deleting 1/1 documents
Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:836)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:145)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:228)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:237)
解决方案
确保您的索引名称全部小写。
检查 hbase_site.xml 中的 hbase.rootdir、hbase.data 和 hbase.zookeeper-data 以及日志文件路径是否正确。
最后,确保将 hbase_site.xml 复制到您的 nutch/conf 目录中。如果您正在运行 nutch 2.x,请在使用 ant 编译之前执行此操作,或者在它存在后重新编译(ant clean,ant runtime)。
推荐阅读
- jmeter - JMeter - Linux 上的远程测试
- c# - 如何组合表达式 Expression
> 到单个表达式 > - c# - 如何使用 C# 从三重存储/RDF 图数据库中获取强类型数据/poco?
- javascript - 这段代码有什么作用?我试图用模学习一些for循环
- java - 如何测试调用 3 方休息端点的服务?
- java - 除非在 Java 中输入更大的数字,否则如何将用户输入的数字设置为双精度
- ecmascript-6 - 将平面对象转换为单个属性对象的数组
- java - java - 如何从java中具有相同名称的其他对象中找到JSON中的特定值?
- python-3.x - 如何在 tf2 中导出、导入和运行自定义模型?
- plotly - 在 VSCode 中使用 Julia 的 PlotlyJS 时,放大不适应日期轴