首页 > 解决方案 > R 脚本 - 如何检测推文中的表情符号代码

问题描述

我正在使用以下数据集:https ://www.kaggle.com/crowdflower/twitter-user-gender-classification

我的目标是开发一个R脚本来通过表情符号检测性别,但它们是一个我无法转换的奇怪代码,UNICODE它允许链接到一个表情符号字典中。我试过iconv,但它转换为 hilo 格式,我不知道如何将其转换为unicode.

我用其中一个数据集推文编写了一个示例。

new <- iconv("Its a double capsule day _Ù÷ã_Ù÷ã 27 varieties of fruit and veg...in a capsule, simples _Ù÷ã_Ù÷ã #fruitandveg #juiceplus #health", from="utf-8", to="UNICODE", "byte")

[1] "Its a double capsule day _<d9><f7><e3>_<d9><f7><e3> 27 varieties of fruit and veg...in a capsule, simples _<d9><f7><e3>_<d9><f7><e3> #fruitandveg #juiceplus #health"

有什么帮助吗?

提前致谢

标签: r

解决方案


推荐阅读