python - 有没有在 Pandas 数据框中保存 Spacy 文档的好方法
问题描述
我正在解决这个问题,但想记录堆栈溢出,因为这不容易搜索。(另外,希望有人能在我之前回答这个问题)。
df.loc[:,'corpus_spacy_doc'] = df['text_corpus'].apply(lambda cell: nlp(cell))
所以现在我可以对corpus_spacy_doc做各种各样的 nlp 了,这很棒。但我想有一个很好的方法来保存这个数据框的状态,因为df.to_csv()显然不起作用。一直在寻找镶木地板是否可以做到这一点,但我认为不可能。
截至目前,似乎我最好的解决方案是使用 spacy 方法序列化文档列表(https://spacy.io/usage/saving-loading)并稍后使用 pandas 数据框加载。
总而言之,我现在想要一种pythonic方式来做类似的事情
df.to_something(fname = fname)
有没有其他人经历过这个或有一个好的答案?
解决方案
所以这很容易,似乎解决了我正在做的常规df.to_pickle()
推荐阅读
- javascript - ImageInput only works the second time [3.0.0-alpha only]
- javascript - 图库灯箱仅在 IE11 中首次单击时不插入图像
- ios - How to determine if issue crash from Crashlytics list is classified as OOM
- javascript - 如何修复:组件 ClassOverallPerComponent 不是任何 NgModule 的一部分
- css - 如何以 Bulma 方式垂直和水平居中一些内容?
- reactjs - 为什么我需要在 MobX 中使用 Context 或 Provider?
- selenium - 如何为
标签中包含的文本编写 xpath? - qt - 如何静态构建qtcharts?
- arrays - 如何通过间隔列表中的索引号访问元素?
- javascript - Fullcalendar 向事件添加工具提示