首页 > 解决方案 > 将 .txt 格式的非结构化文本数据加载到 Python 并使用 pandas 从中创建数据框

问题描述

我想在Pandas的帮助下将代表招聘广告的非结构化文本数据 .txt加载到Python并从中创建一个 Dataframe。我对 Python 还很陌生,入门时遇到了麻烦。

我的数据包含许多具有特定 ID(由 14 个数字组合)的招聘广告,我想将职位 ID 和属于它的文本存储在数据框中以供初学者使用。清理前的最佳数据框如下所示:

职位ID
12341234123412

职位描述

[列表中的职位描述行....]

我试过但不起作用的代码是这样的:

    JobData = pd.read_csv(r"C:\\Users\\Desktop\\JobMarketData.txt", sep ="/t") 
  print(JobData)

它给了我以下错误

Desktop/Spyder_following natural language processing.py:1: ParserWarning: 回退到 'python' 引擎,因为'c' 引擎不支持正则表达式分隔符(分隔符 > 1 char 并且 不同于 '\s+' 被解释为正则表达式);你可以通过指定 engine='python'来避免这个警告。 文件“C:\Program Files\Anaconda3\lib\site-packages\pandas\io\parsers.py”,第 685 行,在 parser_f 返回 _read(filepath_or_buffer, kwds) 文件“C:\Program Files\Anaconda3\lib\site -packages\pandas\io\parsers.py",第 463 行,在 _read data = parser.read(nrows)

到目前为止,我只使用 readlines 函数将 .txt 文件读入我的控制台

filename: 'C:\\Users\\Desktop\\JobMarketData.txt'
with open('C:\\Users\\Desktop\\JobMarketData.txt', encoding="utf8") as fn:
    ln=fn.readline()
    lncnt=1
    while ln:
        print("Line{}:{}".format(lncnt, ln.strip()))
        ln = fn.readline()
        lncnt += 1

但我不知道如何才能继续使用这些线条。 任何帮助将不胜感激!

数据如下所示:

12341234123412

高级 IT 专家 - 纽约

为了加强我们在纽约的 IT 运营,我们正在寻找说英语的 IT 专家,以利用他们的经验、现有的业务关系和联系网络......

对 IT 产品的深入了解以及分析和满足客户需求的能力,同时实现公司在盈利方面的目标是必不可少的。

有兴趣的申请人应该喜欢在充满活力的团队环境中工作,贡献想法并分享他们的经验,以及参与营销活动。

资格:英语母语 - 德语和其他语言的知识将是有利的;数年英语 IT 环境经验 详尽的 IT 工具知识

标签: pythonpython-3.xpandasdataframe

解决方案


推荐阅读