首页 > 解决方案 > 如何找到一堆词簇的特征?

问题描述

我的动机 我正在努力学习德语,并意识到德语的结构存在一个令人困惑的事实:每个名词都有一个在许多情况下似乎与名词本身无关的性别。

与英语等语言不同,每个名词都有不同的定冠词,具体取决于性别:der(阳性)、die(阴性)和das(中性)。例如: das Mädchen(“女孩”)、der Rock(“裙子)、die Hose(“裤子/裤子”)。因此,名词的性别分配与其含义之间似乎没有相关性。

数据 我收集了多达 5000 个德语单词,包含3 列(das、der、die),每个单词都有 1 和 0。所以,我的数据已经用一种热编码聚集在一起,我不想预测任何东西。

为什么我在这里我不知道从哪里开始,如何解决这个问题,因为集群中的距离概念在这种情况下对我来说没有意义。我想不出一种方法来生成对这些集群的可理解描述。混合数据使我无法想到一些硬编码的评估指标。

所以,我的问题是: 我想找到一些模式,这些词的一些特征,使它们落入一个特定的集群。我不知道我是否有任何意义,但有些人已经设法找到了一些模式(例如单词结尾、拉长的长物体往往是男性化的等等),我相信 ML/AI 可以做得更好在这工作。我有可能做这样的事情吗?

一些个人想法 当我在做一些研究时(也许是幼稚的),我意识到潜在的选择是决策树蜘蛛网算法。另外,我在想我是否可以为每个单词刮几张图像(比如 5 张)并尝试运行一些图像分类并查看中间 NN 以查看是否有任何特定形状支持特定对象性别。除此之外,我想知道是否抓取这些单词的 google n-gram 查看器的数据是否有帮助。我想不出使用 NLP 或其子域的方法。

替代方案如果我刚刚写的所有内容听起来都毫无意义,请建议我用 Python 制作我的数据框的可视化表示(更像是节点和路径,节点上有图像,每个集群一个),以便我可以制作图形思维导图并尝试记住他们。

最终目的是让自己和其他人更容易学习德语

标签: machine-learningnlpartificial-intelligencecluster-analysisdata-science

解决方案


推荐阅读