首页 > 解决方案 > 带有 string.split 的大文件中的 Java 堆空间错误

问题描述

我在另一台机器上出现堆空间错误,但它在我的机器上运行,我无法确定另一台机器的属性。如何在不使用 Scanner.java 的情况下解决此问题?

string.split 的参数是否正确,“”用于在空格后分割字符串以将字符串分割成碎片?

[文件:]

U 1 234.003 30 40 50 true
T 2 234.003 10 60 40 false
Z 3 17234.003 30 40 50 true
M 4 0.500 30 40 50 true

/* 1000000+ lines */
java.lang.OutOfMemoryError: Java heap space
    at java.base/java.util.Arrays.copyOfRange(Arrays.java:3821)
    at java.base/java.lang.StringLatin1.newString(StringLatin1.java:764)
    at java.base/java.lang.String.substring(String.java:1908)
    at java.base/java.lang.String.split(String.java:2326)
    at java.base/java.lang.String.split(String.java:2401)
    at project.FileR(Fimporter.java:99)
public static DataBase File(String filename) throws IOException {

   BufferedReader fs = new BufferedReader(new FileReader(filename),64 * 1024);

   String line;
   String[] wrds;
   String A; int hash; double B; int C; int D; boolean E; DataBase DB = new DataBase();

   while (true) {

        line = fs.readLine();
        if (line == null) {break;}
        wrds = line.split(" ");     /* this is line 99 in the error-message */

        hash  = Integer.parseInt(wrds[1]); 
        B     = Double.parseDouble(wrds[2]);
        C     = Integer.parseInt(wrds[3]); 
        D     = Integer.parseInt(wrds[4]); 
        E     = Boolean.parseBoolean(wrds[5]); 

        // hash is hashcode for all values B C D E in DataBase DB

        DB.listB.put(hash,B);
        DB.listC.put(hash,C);
        DB.listD.put(hash,D);
        DB.listE.put(hash,E);

   }

标签: javafileheap-memoryspace

解决方案


如何在不使用 Scanner.java 的情况下解决此问题?

Scanner不是问题。

如果您使用此代码获得 OOME,最可能的根本原因如下:

DB.listB.put(hash,B);
DB.listC.put(hash,C);
DB.listD.put(hash,D);
DB.listE.put(hash,E);

您似乎将所有数据加载到 4 个地图中。(您还没有向我们展示相关代码......但我在这里做出有根据的猜测。)

我的第二个猜测是您的输入文件非常大,并且在上述数据结构中保存它们所需的内存量对于“其他”机器的堆来说太大了。

OOME 发生在呼叫中的事实本身String.split并不表示存在问题。split这只是俗话说的“压死骆驼的稻草”。问题的根本原因在于您在拆分数据后对数据的处理方式。


可能的解决方案/解决方法:

  1. 增加“其他”机器上的堆大小。如果您没有设置-Xmxor-Xms选项,JVM 将使用默认的最大堆大小……通常是物理内存的 1/4。

    阅读命令的命令文档java了解它们的作用-Xmx-Xms操作以及如何设置它们。

  2. 使用内存效率更高的数据结构:

    • 创建一个类来表示由 B、C、D、E 值组成的元组。然后用这些元组的映射替换 4 个映射。

    • 使用内存效率更高的Map类型。

    • 考虑使用已排序的元组数组(包括哈希)并使用二进制搜索来查找它们。

  3. 重新设计你的算法,使它们不需要同时在内存中的所有数据;例如,将输入拆分为较小的文件并分别处理它们。(这可能是不可能的......)


推荐阅读