首页 > 解决方案 > 如何验证高维数据(基因表达)的集群(anylsis)

问题描述

您好,我是新来的,希望我已经正确输入了所有内容,并且这个问题在正确的论坛中。另外,我之前检查过,以前的问题似乎没有与这个问题相提并论。

对于我的问题:我目前正在使用包 clValid 验证集群方法。现在我使用的数据集非常大(1,000 到 25,000),它是基因表达。现在的问题是,哪些验证高维数据集的方法会受到质疑。也许还有另一个包用于验证高维空间中的聚类。我必须先做 PCA 吗?我的数据集可以有多大,以便我可以在其上使用 clValdi(我不想让我的计算机运行几个小时,或者我应该让它运行并等待一个小数据集 100x500 的结果)我很感激每一个建议也许有我还没有想到的解决方案。

cl有效

标签: validationbigdatacluster-analysis

解决方案


我宁愿依赖任何这些索引。

  1. 这些措施通常要求集群是完整的和不相交的,这不适用于典型的基因双集群。有基因不参与实验中观察到的任何效果
  2. 我们通常在设计测量时考虑到低维高斯数据,一旦你拥有所有距离都很大的高维数据,它们会测量聚类之间没有对比(因为它们的测量看不到任何两个之间的对比数据点

我担心您可能需要通过复杂的特定领域分析进行评估。


推荐阅读