首页 > 解决方案 > 我在 Python 中使用 Reddit API praw 抓取了数据,但像 ' 这样的字符显示为 't。我该如何解决?

问题描述

我对 Python 很陌生(还有 StackOverflow,如果我做错了,请原谅)。我从 /r/loseit subreddit 中抓取了提交的内容,所以我可以清理它并在 R 中创建一个 wordcloud 以进行作业。抓取很顺利,但是特殊字符显示为垃圾,例如以下句子:

“啊,我想我已经打破了高原,我……”

我的代码:

import praw



#Set up app
reddit = praw.Reddit(client_id='removed',
                     client_secret='removed',
                     user_agent='removed')


#Import pandas library as pd
import pandas as pd

#Make empty dataset
posts = []

#Function to scrape body for textposts and append to posts. We only want textposts, any other data is not necessary.
li_subreddit = reddit.subreddit('LoseIt')
for post in li_subreddit.new(limit=1000):
    posts.append([post.selftext])
posts = pd.DataFrame(posts,columns=['body'])
posts


#Save as csv
posts.to_csv('loseit2.csv')

标签: pythonpandascharacter-encodingscreen-scrapingpraw

解决方案



推荐阅读