python-3.x - 从元数据动态创建 DataFrame 列
问题描述
我是 Python 和 Databricks 的新手。
我在文本文件中有没有列标题的数据。
'|' 是此文本文件中的列值分隔符
我在单独的 Excel 文件中确实有关于列名及其顺序的详细信息。
我必须创建带有列详细信息的 DataFrame,然后我必须在其中导入数据行
请建议创建 DataFrame 列的最佳方法,我应该在哪里维护这些列的详细信息(名称、类型、顺序)
文本文件中的示例数据:-
C1|CL1|23|dsfr|54|hjhg|nnf|hb
C1|CL2|23|dsfe|344|er|nnf||fg
C1|CL3|23|dsef|364|e|nnf|fg
C2|CL1a|2783|d56sfr|54|hjhg|nbvc|hb
C2|CL2a|253|dsf56e|344|er|hjhgf||fyyg
C2|CL3a|2673|dse56f|364|e|tre|ttt|yy
标题详细信息:-
Col1(string)
Col2(string)
Col3(number)
..
..
请注意,实际上,我确实有超过 300 列包含字符串、数字、日期时间、布尔类型
解决方案
headers_df = pd.read_csv('path to headers csv')
headers = headers_df.values.tolist()
分配列名称
pd.read_csv('path/to/file/without_header.csv',sep='|',names=headers)
希望这能回答你的问题
推荐阅读
- react-native - React Native Expo WebBrowser 与广告块
- python - 从 Azure 下载 Blob 返回空
- android - 如何将 int 数组转换为字节数组?这样我就可以通过字节数组而不是字节数组来制作位图
- javascript - 追溯内联 CSS
- navbar - Bootstrap 5:响应式下拉汉堡按钮
- python - 熊猫:将字符串转换为 datetime.datetime
- python - 带索引的python数组操作
- npm - package.json 中的 yarn 命令无法访问 .npmrc
- python - Pandas:循环遍历行以更新列值
- c++ - “this->”是否总是可以被 C++ 中的显式范围解析替换?