python - 向量化 SVM 的文本
问题描述
我正在使用 sklearn 的 SVM 模块解决分类问题,但我一直坚持如何矢量化我的文本数据。我的数据是一堆氨基酸序列,它目前存储在这样的列表中:
[(1, 'SAEMVGRGSLGTVYRAVLSDGRMVAVKRLRDANPCARDE'),
(1, 'GVLVLEALTGKVPAQYPQPSPVVAADAA'),
(-1, 'ACDLCRYRRIRCDGEKPACETCRLAGVSCVFTPRVGQRK'),
(-1, 'PVVAADAAAADAQRKDKRCSTAVSLPEWVRSVVR')]
1 代表“正”样本,-1 代表“负”样本。
我尝试将这些数据作为文本输入到 SVM 中,如下所示:
classifier = svm.NuSVC(gamma='scale')
classifier.fit( [a[1] for a in train_total], [a[0] for a in train_total] )
但是我收到一个关于无法将字符串转换为浮点数的错误。我知道这意味着我需要先对数据进行矢量化/标记化,但我不确定如何。
解决方案
推荐阅读
- reactjs - 如何使用离子反应创建输入自动建议或选择选项搜索?
- r - 无法更改向量中的名称值
- latex - Texmaker “!额外的 \endgroup。” 编译错误
- swift - 客户端特征配置描述符 0x81 配置不正确
- javascript - 异步函数返回 Observer 对象和 Promise
- javascript - 为阵列输出创建 Google 应用脚本 GUI
- vue.js - Vue.js 2:如何绑定到组件方法?
- python - 使用映射字典替换多个字符
- azure - 如何从 azure 发布管道查询当前部署到应用服务的 docker 映像?
- typescript - Jest:有没有办法从 Jest 的期望中返回通过或失败的值?