首页 > 解决方案 > 合并 200 个大型(50mb 到 500mb)CSV 文件的最快方法是什么?

问题描述

我有大约 200 个大型 CSV 数据集。都是一样的格式。其中大约一半> 100mb。我需要一种将它们整合到 1 个(或几个数据库)中的方法。

我曾尝试使用数据工厂将它们放入一个 azure 数据库,但只上传一个 csv 就花了很多时间,更不用说 200 个了。

任何人都可以推荐一种将这些文件放入某种数据库的快速且相对无痛的方法吗?(理想情况下可以支持 SQL 提取)

标签: sql-servercsvetl

解决方案


这将是您的 python 脚本的基本大纲:

fout=open("out.csv","a")
# first file:
for line in open("sh1.csv"):
    fout.write(line)
# now the rest:    
for num in range(2,201):
    f = open("sh"+str(num)+".csv")
    f.next() # skip the header
    for line in f:
         fout.write(line)
    f.close() # not really needed
fout.close()

另一个例子

另一个对你有用的例子


推荐阅读