machine-learning - 如何找到一堆词簇的特征?
问题描述
我的动机 我正在努力学习德语,并意识到德语的结构存在一个令人困惑的事实:每个名词都有一个在许多情况下似乎与名词本身无关的性别。
与英语等语言不同,每个名词都有不同的定冠词,具体取决于性别:der(阳性)、die(阴性)和das(中性)。例如: das Mädchen(“女孩”)、der Rock(“裙子)、die Hose(“裤子/裤子”)。因此,名词的性别分配与其含义之间似乎没有相关性。
数据 我收集了多达 5000 个德语单词,包含3 列(das、der、die),每个单词都有 1 和 0。所以,我的数据已经用一种热编码聚集在一起,我不想预测任何东西。
为什么我在这里我不知道从哪里开始,如何解决这个问题,因为集群中的距离概念在这种情况下对我来说没有意义。我想不出一种方法来生成对这些集群的可理解描述。混合数据使我无法想到一些硬编码的评估指标。
所以,我的问题是: 我想找到一些模式,这些词的一些特征,使它们落入一个特定的集群。我不知道我是否有任何意义,但有些人已经设法找到了一些模式(例如单词结尾、拉长的长物体往往是男性化的等等),我相信 ML/AI 可以做得更好在这工作。我有可能做这样的事情吗?
一些个人想法 当我在做一些研究时(也许是幼稚的),我意识到潜在的选择是决策树和蜘蛛网算法。另外,我在想我是否可以为每个单词刮几张图像(比如 5 张)并尝试运行一些图像分类并查看中间 NN 以查看是否有任何特定形状支持特定对象性别。除此之外,我想知道是否抓取这些单词的 google n-gram 查看器的数据是否有帮助。我想不出使用 NLP 或其子域的方法。
替代方案如果我刚刚写的所有内容听起来都毫无意义,请建议我用 Python 制作我的数据框的可视化表示(更像是节点和路径,节点上有图像,每个集群一个),以便我可以制作图形思维导图并尝试记住他们。
最终目的是让自己和其他人更容易学习德语
解决方案
推荐阅读
- flutter - 在 Flutter 中从图像文件中读取二维码
- c - 在 C (Linux) 中创建僵尸进程
- react-native - 与世界所有国家/地区一起创建可点击的地图以响应本机
- azure-active-directory - 在 .NET 5 B2C 应用程序上成功注销
- python - 如何制作一个 for 循环,从不同 excel 文件的 2 列创建一个数组?
- flutter - 嵌入式浏览器无法在 Flutter 检查器内的 Android Studio 中加载
- python - 计算文件中的平均成绩。如果文件不存在,它应该返回 None ,如果它不包含任何成绩,它应该返回 0.0
- python - 在另一个数据框中查找数据框行
- c++ - 在 if 语句 C++ 内递减
- c++ - C++ jsoncons:cbor 到 json