首页 > 解决方案 > 在散点图中可视化文本类

问题描述

我正在寻找方法来调查我的火车数据“可建模性”,并检查这些类在词汇方面是否有很好的区分......等等。

我有点尴尬,但我想知道是否可以在 Torch 中为文本分类模型做散点图?或任何其他调查数据质量的方法。

标签: pythonnlptext-classificationtorch

解决方案


您可以使用降维(PCA、t-SNE 或 UMAP)+ 色调来检查您的数据。我建议使用散景以交互方式查看您的数据,即使在这里我将向您展示 seaborn。

import numpy as np
import seaborn as sns
import umap
from sklearn.datasets import load_digits

digits = load_digits()

embedding = umap.UMAP().fit_transform(digits.data)  # 2D embedding

sns.scatterplot(x=embedding[:,0], y=embedding[:,1], hue=digits.target)

在此处输入图像描述


推荐阅读