首页 > 解决方案 > DSpace 5.1 Solr 项目总数不同步

问题描述

我正在帮助支持 DSpace 5.1 安装。我们的客户报告了一个长期存在的问题,即所有项目计数(在 /statistics 中)与所有其他类型项目计数的总和不匹配,并且随着时间的推移而出现差异。

我猜不是所有的操作(例如,撤回一个项目?)都正确更新缓存的值,这些值似乎来自 Solr 的“统计”核心。

我认为我需要做的是运行[dspace]/bin/dspace solr-reindex-statistics(重新索引 SOLR 统计信息,用于升级或每当更改统计信息的 Solr 模式时),但这会导致 DSpace 中的使用错误5.1;似乎 solr-reindex-statistics 命令在 DSpace 5.1 中不可用

鉴于我们之前显然已经解决了此类问题,我认为在作为重大升级的一部分进行重新索引时,这将得到解决。

我认为我需要遵循的程序如下:

  1. 停止Tomcat
  2. 备份 [dspace]/solr/statistics
  3. 启动tomcat
  4. 作为 tomcat,运行 [dspace]/bin/dspace stats-util -b -r
  5. 完成后重启tomcat

这似乎是一件理智的事情吗?我只想真正更新项目计数,我不想丢失任何无法重建的东西。

查看我之前升级到 5.1 的节点(从 5.0 或 4.x 开始,我不确定我们来自哪个版本),我们执行了以下操作:

su - tomcat -s /bin/bash
  /usr/local/dspace/bin/dspace index-db-browse -f -d
  /usr/local/dspace/bin/dspace index-discovery -bf   ### perhaps an hour
  /usr/local/dspace/bin/dspace oai import -c -o
  /usr/local/dspace/bin/dspace oai clean-cache
  logout

在随后的升级中,当我们移至 Mirage2 界面时,我们也完成了该[dspace]/bin/dspace index-discovery -b过程,该过程需要花费一个小时才能运行。

不确定这是否是解决方案的一部分,但它似乎是一种沉重的锤子。

我既不开发也不推动此部署的维护计划,我只是进行部署和操作。不幸的是,Dev 方面发生了一些人员变动,因此目前升级是不可行的,我们已经失去了一些关于这个平台的机构知识。

非常感谢,卡梅伦

标签: dspace

解决方案


DSpace 5 中有两种统计机制。

基于 SOLR 的统计信息可在名为“使用统计信息”的链接中找到。

如果 SOLR 运行正常,则应收集这些统计信息。“stats-util” cron 任务支持收集这些统计信息,但您不需要它们来查看报告的数字。运行“stats-util -h”以获取有关每个选项的使用信息。

通过单击“使用统计”链接,可以在层次结构的每个级别报告 Solr 统计。不幸的是,社区或馆藏的使用次数显示了对该社区/馆藏的访问。它们不显示该集合或社区中所有项目的累积计数。

“遗留统计信息”是从日志文件中提取的。这些链接在 /statistics 下可用。这些统计数据是使用“stat-monthly”和“stat-general”任务生成的。我在我的实例中禁用了这些报告,因为我没有发现这些数字是可靠的。

有关更多信息,请参阅https://wiki.duraspace.org/display/DSDOC7x/Command+Line+Operations#CommandLineOperations-Legacystatistics。请注意使用 Solr Statistics 的建议。

如果您需要额外的支持,请查看https://wiki.duraspace.org/display/DSPACE/Support 。


推荐阅读