首页 > 解决方案 > 有没有在 Pandas 数据框中保存 Spacy 文档的好方法

问题描述

我正在解决这个问题,但想记录堆栈溢出,因为这不容易搜索。(另外,希望有人能在我之前回答这个问题)。

df.loc[:,'corpus_spacy_doc'] = df['text_corpus'].apply(lambda cell: nlp(cell))

所以现在我可以对corpus_spacy_doc做各种各样的 nlp 了,这很棒。但我想有一个很好的方法来保存这个数据框的状态,因为df.to_csv()显然不起作用。一直在寻找镶木地板是否可以做到这一点,但我认为不可能。

截至目前,似乎我最好的解决方案是使用 spacy 方法序列化文档列表(https://spacy.io/usage/saving-loading)并稍后使用 pandas 数据框加载。

总而言之,我现在想要一种pythonic方式来做类似的事情

df.to_something(fname = fname)

有没有其他人经历过这个或有一个好的答案?


标签: pythondataframenlpspacy

解决方案


所以这很容易,似乎解决了我正在做的常规df.to_pickle()


推荐阅读