首页 > 解决方案 > 如何提取非结构化的excel文件数据(仪表板数据)并将其导出为结构化的干净数据

问题描述

我有很多 excel 文件,它们在仪表板呈现形式中包含数据,我希望这些数据以结构化方式在 python 中读取,就像 excel 文件中的每一列数据代表熊猫列中的一列数据一样。

在此处输入图像描述

import pandas as pd
df=pd.read_excel('claim.xls',index=None,error_bad_lines=False)
df

当我运行此代码时,我得到以下输出: 在此处输入图像描述

python中还有其他方法可以获取代码中的所有数据吗?

标签: pythonexcelautomation

解决方案


你需要:

  1. 指定您不会提取的列字母。
  2. 设置您需要跳过的行数
  3. 重命名列
import pandas as pd

df = pd.read_excel('claim.xls', skiprows=range(1, 11), usecols = "C,E,G,J,N,R,V,Z,AD,AH,AL,AP,AT")
df.columns = ['Enc. ID', 'Post Date', 'Claim ID', 'Svc. Date', 'Procedure', 'Mod', 'Patient', 'Billed to', 'Adj.Charge', 'Payments', 'Value', 'A/R Balance', 'Age']

输出:

   Enc. ID           Post Date  Claim ID           Svc. Date Procedure  Mod            Patient          Billed to Adj.Charge Payments   Value A/R Balance   Age
0  41083.0 2019-12-12 12:00:00  167189.0 2019-12-11 12:00:00     99204  NaN    Smith, Susan L.  NOVITAS SOLUTIONS     280.00        -  280.00      280.00  15.0
1  41156.0 2019-12-16 12:00:00  167774.0 2019-12-13 12:00:00     99204   25   Hester, Joyce A.  NOVITAS SOLUTIONS     280.00        -  280.00      280.00  13.0
2  41187.0 2019-12-18 12:00:00  169213.0 2019-12-17 12:00:00     99396  NaN  RHODA, KATHLEEN M      TRICARE PRIME     270.00        -  270.00      270.00   9.0

推荐阅读