首页 > 解决方案 > 为大型对象(超过 30 个字段)覆盖 istream 的最佳方法是什么?

问题描述

我有一个非常大的文本文件,其中包含超过 1100 万个条目/行。每行有 35 个值,每个值由“|”分隔/分隔。

对于我正在阅读的每一行,我正在创建一个对象“记录”。我将它们存储在 Records 向量中,因为我需要能够根据给定字段中的值对它们进行排序。(如果有,请提出更好的方法)

我知道如何覆盖 istream>> 运算符,但我从来没有为这么大的对象这样做过,而且我不确定最好的方法是什么。我尝试在每个分隔符 IE 之前创建标记:

using namespace std; 

inline istream& operator>>(istream& is, Record& r) {
    string line_of_text;
    string token;
    char delim = '|';

    is >> temp;

    token = line_of_text.substr(0, line_of_text.find(delim));
    r.firstField = token;
    
    // so on for each field in Record

    return is;
}

但这是非常不切实际和低效的。

对于这么大的物体,有没有合理的方法来做到这一点?在不浪费这么多内存的情况下解析这样的文本的最佳方法是什么?

输入示例行:

xx|0000|0| 0.00| 3.00|111|111| 5.70| 136000.00| 620.23| 80.00| 47.00| 0.000|修复|P|C| 80.00|满|SF|1.|P|约定|ME| 3| | |未报告 |WFHM |2 |N| |1|0|0|0|0|0| 126162.03| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00| 0.00

我也试着做

inline istream& operator>>(istream& is, Record& r) {
    return is >> r.fieldOne >> r.fieldTwo; //....etc
}

但这不起作用,因为许多字段没有用空格分隔,而只是一个“|”,有没有一种优雅的方式让>>跳过“|” 和空格一样吗?请记住,字段可能为空。

标签: c++performancememory-managementlarge-dataistream

解决方案


我真的很想一次找到指向成员语法的用途,所以...

您可以使用指向成员的语法和一组重载的帮助器,让编译器选择正确的转换器:

struct Record
{
    int x;
    std::string y;
    double z;
    
    void readInput(std::istream& in, int Record::*var)
    {
        std::string input;
        std::getline(in, input, '|');
        this->*var = std::stoi(input);
    }
    
    void readInput(std::istream& in, double Record::*var)
    {
        std::string input;
        std::getline(in, input, '|');
        this->*var = std::stod(input);
    }
    
    void readInput(std::istream& in, std::string Record::*var)
    {
        std::getline(in, this->*var, '|');
    }
};

有了这个,operator >>看起来像这样:

std::istream& operator>>(std::istream& in, Record& r)
{
    r.readInput(in, &Record::x);
    r.readInput(in, &Record::y);
    r.readInput(in, &Record::z);
    //no need to handle last value as special case as long as stream ends there and you don't care that it will be in fail() state afterwards
    return in;
}

在网上看到


可以只提供免费函数,它们采用引用而不是指向成员的指针,例如:

void readInput(std::istream& in, int& var)
{
    std::string input;
    std::getline(in, input, '|');
    var = std::stoi(input);
}

用法operator >>如下:

readInput(in, r.x);

这两种方法的核心区别在于您是否希望它仅可用于Record或您总是希望读取由|istreams 分隔的整数。


推荐阅读