首页 > 解决方案 > 如何从 UCI 机器学习存储库中导入 .data 和 .lisp 文件?

问题描述

这是我要导入的数据的链接。这些文件是 .data、.names 和 .lisp。如何将它们作为数据框导入 Python?我试过了:

df = pd.read_table('http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data', sep='')

以及pd.read_csv()但它不起作用,因为文件不是 CSV。谢谢你的帮助!

标签: pythonpandas

解决方案


使用时需要定义分隔符read_table。在这种情况下,您的列由 . 分隔,。您还应该设置header=None,因为数据文件不包含标题(列名)。虽然read_table可能有效,但它现在已被弃用,因此您可以使用它read_csv

import pandas as pd

df = pd.read_csv(
    'http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data', 
    sep=',', 
    header=None
)

print(df)

     0      1       2  3  4   5   6       7  8  9   10 11 12     13     14 15
0    b  30.83   0.000  u  g   w   v   1.250  t  t   1  f  g  00202      0  +
1    a  58.67   4.460  u  g   q   h   3.040  t  t   6  f  g  00043    560  +
2    a  24.50   0.500  u  g   q   h   1.500  t  f   0  f  g  00280    824  +
3    b  27.83   1.540  u  g   w   v   3.750  t  t   5  t  g  00100      3  +
4    b  20.17   5.625  u  g   w   v   1.710  t  f   0  f  s  00120      0  +
5    b  32.08   4.000  u  g   m   v   2.500  t  f   0  t  g  00360      0  +
6    b  33.17   1.040  u  g   r   h   6.500  t  f   0  t  g  00164  31285  +
7    a  22.92  11.585  u  g  cc   v   0.040  t  f   0  f  g  00080   1349  +
...
[690 rows x 16 columns]

推荐阅读