python - 我在 Python 中使用 Reddit API praw 抓取了数据,但像 ' 这样的字符显示为 't。我该如何解决?
问题描述
我对 Python 很陌生(还有 StackOverflow,如果我做错了,请原谅)。我从 /r/loseit subreddit 中抓取了提交的内容,所以我可以清理它并在 R 中创建一个 wordcloud 以进行作业。抓取很顺利,但是特殊字符显示为垃圾,例如以下句子:
“啊,我想我已经打破了高原,我……”
我的代码:
import praw
#Set up app
reddit = praw.Reddit(client_id='removed',
client_secret='removed',
user_agent='removed')
#Import pandas library as pd
import pandas as pd
#Make empty dataset
posts = []
#Function to scrape body for textposts and append to posts. We only want textposts, any other data is not necessary.
li_subreddit = reddit.subreddit('LoseIt')
for post in li_subreddit.new(limit=1000):
posts.append([post.selftext])
posts = pd.DataFrame(posts,columns=['body'])
posts
#Save as csv
posts.to_csv('loseit2.csv')
解决方案
推荐阅读
- javascript - Angular:如何覆盖来自不同模块的共享模块服务
- python - 如何在 initializable_iterator 上使用 shared_name
- pentaho - 在 pentaho 报告 5.4 版本中垂直旋转文本
- html - 如何在网页中显示 .ipynb 文件的输出?
- c++ - 使库函数模板化以避免编译器指令是否有益?
- c# - 已成功订阅来自 CTS Surveyor 人脸检测服务器的事件通知,但人脸事件未到来
- android - 应用程序在 One Plus 手机中无法正常运行
- apache-kafka - kafka connect - 如何从有效负载中过滤模式元数据
- sql - 如何在一行中获得这两个结果?
- python - 如何将 GET 请求中的 JSON 文件转换为 pandas 数据框?