r - R 脚本 - 如何检测推文中的表情符号代码
问题描述
我正在使用以下数据集:https ://www.kaggle.com/crowdflower/twitter-user-gender-classification
我的目标是开发一个R
脚本来通过表情符号检测性别,但它们是一个我无法转换的奇怪代码,UNICODE
它允许链接到一个表情符号字典中。我试过iconv
,但它转换为 hilo 格式,我不知道如何将其转换为unicode
.
我用其中一个数据集推文编写了一个示例。
new <- iconv("Its a double capsule day _Ù÷ã_Ù÷ã 27 varieties of fruit and veg...in a capsule, simples _Ù÷ã_Ù÷ã #fruitandveg #juiceplus #health", from="utf-8", to="UNICODE", "byte")
[1] "Its a double capsule day _<d9><f7><e3>_<d9><f7><e3> 27 varieties of fruit and veg...in a capsule, simples _<d9><f7><e3>_<d9><f7><e3> #fruitandveg #juiceplus #health"
有什么帮助吗?
提前致谢
解决方案
推荐阅读
- php - 将数据保存到数据库后发送电子邮件
- kubernetes - kubectl 补丁部署导致 'The "" is invalid'
- android - 与动态集内容视图的数据绑定
- xamarin.forms - 在 xmlns="http://xamarin.com/schemas/2014/forms" 中找不到类型 SwipeGestureReconizer
- python - 在二值图像中拟合平滑曲线
- perl - 如何将文本文件的每一行写入 CSV
- ios - 在哪里可以找到 iPhone 设备 UDID?如果 iTunes 预计将在 macOS 10.15 中退役,预计将在 wwdc19 中公布
- reactjs - 带有样式组件的 React 单选按钮
- git - 删除提交以减少存储库大小的方法
- string - 将当前日期嵌入 URL (matlab)