python - 如何从一系列随机字符创建数据集以分割它们
问题描述
我有一个这样的随机字母序列:
'xrrlzxmnbbazpcljsvtnpjizbnangxasvyljsvtntpjizbbjangpilaenztli*yacnhkhlpfnpfstljsvtentpsbtaythecqhssagtobpbazpcweyacnpilaenztlsixwukmukhplfhkhphlf...'
这个序列实际上是由单词序列组成的(例如 xrrlzxmn,bbazpc,ljsvtnpjiz 等等..),它们有时会重复自己但有一点变化(例如 xrrl k zxm、xrrl xz mn 或删除一个字符) . 我想创建一个数据集来应用聚类技术,但我不知道该怎么做......
我不知道如何用数字或向量表示像“xrrlzxmn”这样的词......哪些属性(数据集的列)可能是对的吗?
我的目标是按如下方式分割该序列: 'xrrlzxmn bbazpc ljsvtnpjiz bnangx asvyljsvtnt pjizbbjangpil aenzt li yacnhk hlpfnpfs tljsvte ntps btaythecq hssagto bpbazp cweyacnpi laenztlsi xwukmuk hplfhk hphlf...'*
我必须在单词之间插入一个分隔符,但由于我没有字典,所以我处于不受监督的情况下,所以我正在考虑使用集群
解决方案
推荐阅读
- android - 使用 Android Studio 创建新的 Flutter 项目时出现问题
- macos - Visual Studio 社区冻结在 macOS 上创建新的 Xamarin 项目
- python - 带有应用程序调度的 CLI
- java - 在活动和服务之间共享共享偏好?
- java - JFrame 自动计算
- java - 在 mongodb(Java 驱动程序)中更新嵌套文档
- ios - @IBDesignable 不呈现 UILabel 和 UITextField 文本
- angular - 无法从 Ionic 中的离子选择中获取选定值
- css - How does padding + line-height overwrite height?
- python - 将批量(100+)项添加到列表小部件并退出应用程序时 PYQT5 GUI 应用程序冻结