python - 尝试将工作流程从 stata 复制到 python - 循环和导出问题
问题描述
# import pandas package
import pandas as pd
# List of Tuples
students = [('Ankit', 'BA', 'A'),
('Swapnil', 'BSc', 'B'),
('Priya', 'BA', 'B'),
('Shivangi', 'BSc', 'B'),
]
# Create a DataFrame object
stu_df = pd.DataFrame(students, columns =['Name', 'Qualification', 'Section'],
index =['1', '2', '3', '4'])
stu_df
stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack()
freq = stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack().to_frame()
freq
for column, data in freq.groupby(level=0):
data.to_excel(f'{column}.xlsx')
**我不是真正的编码员,我最近一直在尝试在 Python 上的 Stata 上复制我的工作流程。我使用的数据集有很多分类变量。我在 Stata 上的工作流程的一部分是为每个分类变量生成频率表,并将其导出到 Excel 文件上的工作表中。工作表以导出到工作表的变量的描述性统计数据命名。
在上面的代码中,我已经能够生成我需要的描述性统计数据,但我将其导出到单独的 excel 文件中。我们的想法是拥有一个 excel 文件并拥有三张带有变量名称的表格 - 名称、资格和部分。
我试图自动化的另一件事基本上是确保结果格式合适。在这个带有名为“qualification”的excel文件的代码中,第一列有点奇怪。我想要第二列名为“资格”,第三列名为“百分比”,同时完全摆脱第一列。
索要代码感觉很奇怪,但我一直被这个问题困扰一段时间。也许,如果有人对完成这项工作的研究领域有任何指导,那也行!对不起,我不清楚,第一次在这里寻求建议 - 如果需要,我很乐意澄清我的问题。谢谢!**
解决方案
推荐阅读
- android - TextView:获取最后一行末尾的 x 和 y
- python - 将 JSON 数据加载到 pandas 数据框中并创建自定义列
- python - 根据行标签合并行 - pandas python
- python - 如何有效地索引 Groupby 对象?
- yocto - 如何为 yocto systemd 服务添加配方
- libcurl - libcurl:如何从活动连接中获取文件描述符?
- c# - C#如何在asp.net的文本框中检索日期
- .htaccess - 如何更改网站的文档根目录并仅强制执行“https”?
- tensorflow - Tensorflow 对象检测中的 sync_replicas 是什么?
- docker-compose - 不健康时如何启动服务?