machine-learning - 如何将熊猫多列文本转换为张量?
问题描述
嗨,我正在研究IBM共享的关键点分析任务,这是链接。在给定的数据集中有不止一行文本,任何人都可以告诉我如何将文本列转换为张量并再次将它们分配到同一个数据框中,因为那里还有其他数据列。
问题
在这里,我面临一个问题,我以前从未见过这种数据,比如有多个文本列,如何将所有这些列转换为张量,然后应用模型。大多数时候数据是这样的:一个文本列,其他列是标签,例如:电影评论,有毒评论分类。
def clean_text(text):
"""
text: a string
return: modified initial string
"""
text = text.lower() # lowercase text
text = REPLACE_BY_SPACE_RE.sub(' ',
text)
text = BAD_SYMBOLS_RE.sub('',
text)
text = text.replace('x', '')
# text = re.sub(r'\W+', '', text)
text = ' '.join(word for word in text.split() if word not in STOPWORDS)
return text
解决方案
推荐阅读
- c# - 当变量超出范围时如何执行操作?
- reactjs - “JestSerializer”不可分配给“SnapshotSerializerPlugin”类型的参数
- javascript - 为什么 Puppeteer 没有下载到 Windows 中用“Page.setDownloadBehavior”指定的文件夹中?
- excel - Excel VBA Userform ListBox Visible=True 不取消 Visible=False Office 365
- java - 如何将元素从外部 java 库导入 AnyLogic 工作区(调色板)?
- excel - LibreOffice 或 Excel:跨列随机化项目而不重复
- python - 如何在 Django 中使用 pathlib.Path?
- java - 如何使用 classname.java 而不是 App.java 创建 Java 项目
- css - 使用 Bootstrap Modal 4.3 垂直对齐中心
- python - 连接预测值 LSTM Keras