python - 如何从文本中获取文体特征(作者归属任务)
问题描述
在识别给定文本的作者时,我尝试获取用于文体测量任务的文本特征。
我检查:
- 按单词的文本长度
- 按字符的文本长度
- 标点计数
- 独特的字数
等...但是在对该功能进行分类时会给出不合理的结果,因此:
我想检查更多功能...我有两个问题:
- 有没有我忘记从文本中提取的好特征来帮助分类结果
- 我有一个这样的数据框:
text , author , pos
i go to school , x , [N,V,...]
..
we are good , y , [N,V,ADj]
我的问题是如何从 pos 栏获得好的功能?例如“N”与其他的比率?或类似的东西......
如何改进这个 multi_input single_lable multi_class 分类结果?有什么特点?有什么好的来源吗?
解决方案
许多研究表明,FUNCTION WORDS 的频率和分布是显着的,并且表明了个人风格。功能词是那些很少或没有词汇意义的词:冠词 THE、AN、A、连词、人称代词、助动词。等等
推荐阅读
- ruby-on-rails - Rails rspec 测试返回返回一个空数组
- python - python elasticsearch:如何查询所有字段的字符串
- java - DynamoDB 在嵌套对象中转换 ZonedDateTime
- xcode - 集成 React-Native 和 TesseractOCR
- google-apps-script - 单元格范围包含值时的自动日期/时间
- docker - 在单个主机上运行多节点 Elasticsearch 集群是否有意义?
- java - 在正则表达式中拆分任意数量的特殊字符并给出数组大小
- python - 熊猫:分组后从内存中删除旧的DataFrame
- php - 数据库和 php 父 ID
- node.js - Angular cli 在 Windows 上的 Git Bash 终端中不起作用