首页 > 解决方案 > 尝试将工作流程从 stata 复制到 python - 循环和导出问题

问题描述

# import pandas package 
import pandas as pd
  
# List of Tuples
students = [('Ankit', 'BA', 'A'),
           ('Swapnil', 'BSc', 'B'),
           ('Priya', 'BA', 'B'),
           ('Shivangi', 'BSc', 'B'),
            ]
# Create a DataFrame object
stu_df = pd.DataFrame(students, columns =['Name', 'Qualification', 'Section'],
                      index =['1', '2', '3', '4'])
  
stu_df

stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack()

freq = stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack().to_frame()
freq

for column, data in freq.groupby(level=0):
    data.to_excel(f'{column}.xlsx')

**我不是真正的编码员,我最近一直在尝试在 Python 上的 Stata 上复制我的工作流程。我使用的数据集有很多分类变量。我在 Stata 上的工作流程的一部分是为每个分类变量生成频率表,并将其导出到 Excel 文件上的工作表中。工作表以导出到工作表的变量的描述性统计数据命名。

在上面的代码中,我已经能够生成我需要的描述性统计数据,但我将其导出到单独的 excel 文件中。我们的想法是拥有一个 excel 文件并拥有三张带有变量名称的表格 - 名称、资格和部分。

我试图自动化的另一件事基本上是确保结果格式合适。在这个带有名为“qualification”的excel文件的代码中,第一列有点奇怪。我想要第二列名为“资格”,第三列名为“百分比”,同时完全摆脱第一列。

索要代码感觉很奇怪,但我一直被这个问题困扰一段时间。也许,如果有人对完成这项工作的研究领域有任何指导,那也行!对不起,我不清楚,第一次在这里寻求建议 - 如果需要,我很乐意澄清我的问题。谢谢!**

标签: pythonloopsexportexport-to-excel

解决方案


推荐阅读