python - 将 .txt 格式的非结构化文本数据加载到 Python 并使用 pandas 从中创建数据框
问题描述
我想在Pandas的帮助下将代表招聘广告的非结构化文本数据 .txt加载到Python并从中创建一个 Dataframe。我对 Python 还很陌生,入门时遇到了麻烦。
我的数据包含许多具有特定 ID(由 14 个数字组合)的招聘广告,我想将职位 ID 和属于它的文本存储在数据框中以供初学者使用。清理前的最佳数据框如下所示:
职位ID
12341234123412
职位描述
[列表中的职位描述行....]
我试过但不起作用的代码是这样的:
JobData = pd.read_csv(r"C:\\Users\\Desktop\\JobMarketData.txt", sep ="/t")
print(JobData)
它给了我以下错误:
Desktop/Spyder_following natural language processing.py:1: ParserWarning: 回退到 'python' 引擎,因为'c' 引擎不支持正则表达式分隔符(分隔符 > 1 char 并且 不同于 '\s+' 被解释为正则表达式);你可以通过指定 engine='python'来避免这个警告。 文件“C:\Program Files\Anaconda3\lib\site-packages\pandas\io\parsers.py”,第 685 行,在 parser_f 返回 _read(filepath_or_buffer, kwds) 文件“C:\Program Files\Anaconda3\lib\site -packages\pandas\io\parsers.py",第 463 行,在 _read data = parser.read(nrows)
- 文件“C:\Program Files\Anaconda3\lib\site-packages\pandas\io\parsers.py”,第 1154 行,读取* ret = self._engine.read(nrows) 文件“C:\Program Files\Anaconda3 \lib\site-packages\pandas\io\parsers.py",第 2493 行,已读
- alldata = self._rows_to_cols(content)* 文件“C:\Program Files\Anaconda3\lib\site-packages\pandas\io\parsers.py”,第 3157 行,在 _rows_to_cols
- self._alert_malformed(msg, row_num + 1)*
- 文件“C:\Program Files\Anaconda3\lib\site-packages\pandas\io\parsers.py”,第 2914 行,in* _alert_malformed
- raise ParserError(msg)* ParserError: Expected 1 fields in line 160538, saw 2. 错误可能是由于 使用多字符分隔符时忽略引号引起的。
到目前为止,我只使用 readlines 函数将 .txt 文件读入我的控制台
filename: 'C:\\Users\\Desktop\\JobMarketData.txt'
with open('C:\\Users\\Desktop\\JobMarketData.txt', encoding="utf8") as fn:
ln=fn.readline()
lncnt=1
while ln:
print("Line{}:{}".format(lncnt, ln.strip()))
ln = fn.readline()
lncnt += 1
但我不知道如何才能继续使用这些线条。 任何帮助将不胜感激!
数据如下所示:
12341234123412
高级 IT 专家 - 纽约
为了加强我们在纽约的 IT 运营,我们正在寻找说英语的 IT 专家,以利用他们的经验、现有的业务关系和联系网络......
对 IT 产品的深入了解以及分析和满足客户需求的能力,同时实现公司在盈利方面的目标是必不可少的。
有兴趣的申请人应该喜欢在充满活力的团队环境中工作,贡献想法并分享他们的经验,以及参与营销活动。
资格:英语母语 - 德语和其他语言的知识将是有利的;数年英语 IT 环境经验 详尽的 IT 工具知识
解决方案
推荐阅读
- python - 参数替换后让sqlite3进行查询优化
- python - Asyncio.sleep 阻塞了函数的其余部分
- angular - valueGetter 未反映在 rowdata ag-gird 中
- audio - 更改所有幻灯片的音频播放设置
- python - ConnectionRefusedError: [WinError 10061] 无法建立连接,因为目标机器在使用 Python 时在 VS Code 上主动拒绝了它
- java - 休眠不从数据库中检索数据
- c# - 如果当前行以空格开头,则删除前面的 CRLF
- python - Tensorflow 在预测序列的类别时对模型的(输入)维度的怀疑
- javascript - 根据 XMLHttpRequest 的输出设置变量
- r - 使用 plot() 函数或 autoplot 绘制带有自定义 x 轴标签的 stl 对象