indexing - 在 Solr 中,我如何索引包含特殊字符的纯文本文件
解决方案
谢谢马茨林德。我成功地在 Linux 中索引到 pdf、txt 文件。但我在 Windows 中失败了。我提取请求处理程序的配置在两种环境中都是相同的。这是我的 solrconfig.xml 文件
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />
.
.
.
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="fmap.content">_text_</str>
</lst>
</requestHandler>
我在 Windows 中的命令失败了。
E:\work\private\JAVA\solr8>java -Dc=test -Dparams="literal.id=doc1" -jar ./bin/post.jar "./example/exampledocs/solr-word.pdf"
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/solr/test/update?literal.id=doc1 using content-type application/xml...
POSTing file solr-word.pdf to [base]
SimplePostTool: WARNING: Solr returned an error #400 (Bad Request) for url: http://localhost:8983/solr/test/update?literal.id=doc1
SimplePostTool: WARNING: Response: <?xml version="1.0" encoding="UTF-8"?>
<response>
<lst name="responseHeader">
<int name="status">400</int>
<int name="QTime">0</int>
</lst>
<lst name="error">
<lst name="metadata">
<str name="error-class">org.apache.solr.common.SolrException</str>
<str name="root-error-class">java.io.CharConversionException</str>
</lst>
<str name="msg">Invalid UTF-8 middle byte 0xe5 (at char #10, byte #-1)</str>
<int name="code">400</int>
</lst>
</response>
SimplePostTool: WARNING: IOException while reading response: java.io.IOException: Server returned HTTP response code: 400 for URL: http://localhost:8983/solr/test/update?literal.id=doc1
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/solr/test/update?literal.id=doc1...
Time spent: 0:00:00.064
Why did not run this in Windows?
推荐阅读
- swift - 如何在 Apple 地图中 1:1 缩放图像
- swift - 可可 NSScrollView 不将 scrollWheel 事件传递给下一个响应者
- javascript - 当之前的状态是在组件方法的闭包中时,如何处理 React.js 钩子中的案例?
- azure-data-factory-2 - 在数据流的接收器设置下选择“作为列中的数据”作为文件名选项是在 Azure 数据工厂 V2 中的 Blob 存储的根目录中写入数据
- python - 与 GCP 虚拟机实例的安全连接并拉出文件
- java - Illegal start of expression while trying to multiply?
- keycloak - oidc-client - 使用自己的 URL 登录
- javascript - 从 node_modules 中排除包
- java - 如何使用java将excel数据(.xlsx)插入mysql数据库?
- c# - 使用 U-SQL 从文本文件中删除特殊字符