首页 > 解决方案 > 如何从一系列随机字符创建数据集以分割它们

问题描述

我有一个这样的随机字母序列:

'xrrlzxmnbbazpcljsvtnpjizbnangxasvyljsvtntpjizbbjangpilaenztli*yacnhkhlpfnpfstljsvtentpsbtaythecqhssagtobpbazpcweyacnpilaenztlsixwukmukhplfhkhphlf...'

这个序列实际上是由单词序列组成的(例如 xrrlzxmn,bbazpc,ljsvtnpjiz 等等..),它们有时会重复自己但有一点变化(例如 xrrl k zxm、xrrl xz mn 或删除一个字符) . 我想创建一个数据集来应用聚类技术,但我不知道该怎么做......
我不知道如何用数字或向量表示像“xrrlzxmn”这样的词......哪些属性(数据集的列)可能是对的吗?

我的目标是按如下方式分割该序列: 'xrrlzxmn bbazpc ljsvtnpjiz bnangx asvyljsvtnt pjizbbjangpil aenzt li yacnhk hlpfnpfs tljsvte ntps btaythecq hssagto bpbazp cweyacnpi laenztlsi xwukmuk hplfhk hphlf...'*

我必须在单词之间插入一个分隔符,但由于我没有字典,所以我处于不受监督的情况下,所以我正在考虑使用集群

标签: pythonmachine-learningdataset

解决方案


推荐阅读