首页 > 解决方案 > 如何从文本中获取文体特征(作者归属任务)

问题描述

在识别给定文本的作者时,我尝试获取用于文体测量任务的文本特征。
我检查:

  1. 有没有我忘记从文本中提取的好特征来帮助分类结果
  2. 我有一个这样的数据框:
    text , author , pos
    i go to school , x , [N,V,...]
    ..
    we are good , y , [N,V,ADj]

我的问题是如何从 pos 栏获得好的功能?例如“N”与其他的比率?或类似的东西......
如何改进这个 multi_input single_lable multi_class 分类结果?有什么特点?有什么好的来源吗?

标签: pythonnlpmulticlass-classification

解决方案


许多研究表明,FUNCTION WORDS 的频率和分布是显着的,并且表明了个人风格。功能词是那些很少或没有词汇意义的词:冠词 THE、AN、A、连词、人称代词、助动词。等等


推荐阅读