首页 > 解决方案 > 机器学习使用数据库标签来理解记录是关于什么的

问题描述

我的数据库中有几张表:projects, citations, citation_sources, tags. 这些就是它们之间的关系。

  1. projects有多个citations并且citations属于projects

  2. 每个都citation属于citation_sourcescitation_sources有多个citations.

  3. citation_sources有多个tags和一个tag属于citation_source

使用这种结构,我可以查询tags属于citations特定project.

我想在 python 中使用机器学习来筛选标签以找出项目的内容。我怎样才能做到这一点?我听说过 K 均值,但我不确定如何实现它。

标签: pythonmachine-learningk-means

解决方案


sklearn模块提供了一种实现 K-Means 的简单方法。如果您知道大约有多少个“类别”标签,您可以将集群的数量定义为“类别”的数量。


推荐阅读