首页 > 解决方案 > 对我的 Capstone 项目的一点帮助——将数据集从 ASCII 转换为 Python 可以读取的内容

问题描述

感谢您阅读我的帖子。我被困住了……我正在使用 2016 年全国住院患者样本 (NIS),这是一个包含 700 万个医院记录的数据集。我需要隔离分娩的母亲及其新生儿,即 850,00 条记录。

数据集是ASCII格式的,需要转换成我可以在Python中使用的格式。从那里,我需要为所有分娩案例使用ICM-10代码,为母亲和她的孩子创建一个用于数据分析的新数据集。

所以我的步骤是..

1--将ASCII转换为Python可以使用的东西,并确保程序根据是数字还是字符串正确读取数据。我无法完成这项工作;谁能帮我写代码?

import numpy as np

import matplotlib.pyplot as plt

from io import StringIO

data=StringIO('C:\Users\Owner\Downloads\NIS_2016\NIS_2016_Core.txt')

np.genfromtxt(data, delimiter=(3,2,2,2,2,11,2,2,3,2,3,2,2,2,3,2,5,

7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,

7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,2,3,

2,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,10,5,

2,2,4,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,

3,3,2,2,10,2,2,4,2))

2--使用 ICM-10 代码创建一个我将使用的文件...

(我还没有达到那个点。)

非常感谢您的帮助。

标签: stringpython-3.xasciidelimiternumber-formatting

解决方案


推荐阅读