首页 > 解决方案 > 在 Solr 中,我如何索引包含特殊字符的纯文本文件

问题描述

在此处输入图像描述

在 Solr 中,如何索引包含特殊字符的纯文本文件

大写,在Windows环境下试过。

并在 Linux 环境中,尝试了示例文档。

在此处输入图像描述

但我也失败了。

标签: indexingsolrspecial-charactersplaintext

解决方案


谢谢马茨林德。我成功地在 Linux 中索引到 pdf、txt 文件。但我在 Windows 中失败了。我提取请求处理程序的配置在两种环境中都是相同的。这是我的 solrconfig.xml 文件

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />
.
.
.
<requestHandler name="/update/extract"
            startup="lazy"
            class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
        <str name="lowernames">true</str>
        <str name="fmap.content">_text_</str>
    </lst>
</requestHandler>

我在 Windows 中的命令失败了。

E:\work\private\JAVA\solr8>java -Dc=test -Dparams="literal.id=doc1" -jar ./bin/post.jar "./example/exampledocs/solr-word.pdf"
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/solr/test/update?literal.id=doc1 using content-type application/xml...
POSTing file solr-word.pdf to [base]
SimplePostTool: WARNING: Solr returned an error #400 (Bad Request) for url: http://localhost:8983/solr/test/update?literal.id=doc1
SimplePostTool: WARNING: Response: <?xml version="1.0" encoding="UTF-8"?>
<response>

<lst name="responseHeader">
  <int name="status">400</int>
  <int name="QTime">0</int>
</lst>
<lst name="error">
  <lst name="metadata">
    <str name="error-class">org.apache.solr.common.SolrException</str>
    <str name="root-error-class">java.io.CharConversionException</str>
  </lst>
  <str name="msg">Invalid UTF-8 middle byte 0xe5 (at char #10, byte #-1)</str>
  <int name="code">400</int>
</lst>
</response>
SimplePostTool: WARNING: IOException while reading response: java.io.IOException: Server returned HTTP response code: 400 for URL: http://localhost:8983/solr/test/update?literal.id=doc1
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/solr/test/update?literal.id=doc1...
Time spent: 0:00:00.064

Why did not run this in Windows?

推荐阅读