首页 > 解决方案 > 如何在 Golang 中过滤 [][] 字符串切片的元素?

问题描述

首先,我是新来的,我正在尝试学习 Golang。我想检查我的 csv 文件(它有 3 个值;类型、制造商、型号)并创建一个新文件,在过滤操作之后我想将新数据(过滤)写入创建的 csv 文件。这是我的代码,因此您可以更清楚地理解我。

package main

import (
    "encoding/csv"
    "fmt"
    "os"
)

func main() {
    //openning my csv file which is vehicles.csv
    recordFile, err := os.Open("vehicles.csv")
    if err != nil{
        fmt.Println("An error encountered ::", err)
    }
    //reading it
    reader := csv.NewReader(recordFile)
    vehicles, _ := reader.ReadAll()
    //creating a new csv file
    newRecordFile, err := os.Create("newCsvFile.csv")
    if err != nil{
        fmt.Println("An error encountered ::", err)
    }
    //writing vehicles.csv into the new csv
    writer := csv.NewWriter(newRecordFile)
    err = writer.WriteAll(vehicles)
    if err != nil {
        fmt.Println("An error encountered ::", err)
    }
}

在我构建它之后,它就是这样工作的。它读取所有数据并将其写入新创建的 csv 文件。但是这里的问题是,我想过滤已读取的csv的重复项,即车辆,我正在创建另一个函数(在主函数之外)来过滤重复项,但我不能这样做,因为车辆的类型是[][] string,我在互联网上搜索了有关过滤重复项的信息,但我发现的只是 int 或 string 类型。我想要做的是创建一个函数并在 WriteAll 操作之前调用它,以便 WriteAll 可以将正确的(重复过滤的)数据写入新的 csv 文件。请帮帮我!!我很感激任何答案。快乐编码!

标签: csvgoduplicatesslice

解决方案


这取决于您如何定义“唯一性”,但总的来说,这个问题有几个部分。

什么是独特的?

  1. 所有字段必须相等
  2. 只有某些字段必须相等
  3. 在比较之前规范化部分或所有字段

您有几种方法可以应用您的独特性,包括:

  1. 您可以使用由唯一性“片段”键控的地图,需要 O(N) 状态
  2. 您可以在迭代时对记录进行排序并与先前的记录进行比较,需要 O(1) 状态但更复杂

您有两种过滤和输出方法:

  1. 您可以使用循环在旧切片的基础上构建一个新切片并一次写入,这需要 O(N) 空间
  2. 如果不需要排序,可以随时将记录写入文件,这需要 O(1) 空间

我认为一个相当简单和高效的方法是从第一个中选择 (1),从第二个中选择 (1),从第三个中选择 (2),它们一起看起来像:

package main

import (
    "encoding/csv"
    "errors"
    "io"
    "log"
    "os"
)

func main() {
    input, err := os.Open("vehicles.csv")
    if err != nil {
        log.Fatalf("opening input file: %s", err)
    }

    output, err := os.Create("vehicles_filtered.csv")
    if err != nil {
        log.Fatalf("creating output file: %s", err)
    }
    defer func() {
        // Ensure the file is closed at the end of the program
        if err := output.Close(); err != nil {
            log.Fatalf("finalizing output file: %s", err)
        }
    }()

    reader := csv.NewReader(input)
    writer := csv.NewWriter(output)

    seen := make(map[[3]string]bool)
    for {
        // Read in one record
        record, err := reader.Read()
        if errors.Is(err, io.EOF) {
            break
        }
        if err != nil {
            log.Fatalf("reading record: %s", err)
        }
        if len(record) != 3 {
            log.Printf("bad record %q", record)
            continue
        }

        // Check if the record has been seen before, skipping if so
        key := [3]string{record[0], record[1], record[2]}
        if seen[key] {
            continue
        }
        seen[key] = true

        // Write the record
        if err := writer.Write(record); err != nil {
            log.Fatalf("writing record %d: %s", len(seen), err)
        }
    }
}

推荐阅读