python - 我想逐字过滤数据帧中的行,但它给出了空白
问题描述
我想在我的数据框中逐字过滤行。我的话是总督。Dataframe 包括 Elon Musk 的推文。我想按单词过滤这些推文并提取过滤后的推文。我的代码算法的最后一部分如下。
pi = tweepy.API(authenticate, wait_on_rate_limit = True)
tweets = api.user_timeline(screen_name = "elonmusk", count = 2000,lang = "en", tweet_mode = "extended")
df = pd.DataFrame([tweet.full_text for tweet in tweets], columns = ["tweet"])
def cleantext(text):
text = re.sub(r'@\w+', "", text) # Remove Mentions
text = re.sub(r"#", "", text) # Remove Hashtags Symbol
text = re.sub(r"RT[\s]+", "", text) # Remove Retweets
text = re.sub(r"https?:\/\/\S+", "", text) # Remove The Hyper Link
return text
# Clean The Text
df["tweet"] = df["tweet"].apply(cleantext)
df[df['tweet'].str.contains('Doge')]
解决方案
这是你想要的?
#make a dataframe
d = {'tweet': ['elon tweets about doge coin', 'elon tweets about bitcoin']}
df = pd.DataFrame(data=d)
#get filtered records for twwets containing doge
df.loc[df['tweet'].str.contains('doge'),:]
您可以使用 df.loc 从数据框中过滤列和记录,在这种情况下,我们通过包含 doge 的字符串过滤记录。
如果您想看一下,文档就在这里:
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html
https://pandas.pydata.org/docs/reference/api/pandas.Series.str.contains.html
推荐阅读
- javascript - Wemassembly 设置元标记
- sql - 减少 Postgres SQL 的执行时间
- c++ - 将 userInput(string) 转换为 UserInput(int) mid for 循环
- javascript - 有没有办法将数组元素添加到 formData 对象,所以 net core [FromForm] 会正确反序列化它们?
- python - 在 PRAW 中,有没有办法为多个用户获取评论流?
- sql - 优化调用代价高昂函数的嵌套选择的最佳方法
- c# - 流利的验证器。为所有模型添加 _validateService
- python - 如何根据列值(或值列表)将熊猫数据框子集为多个数据框
- node.js - Websocket(ws)nodejs处理错误“ENOTFOUND”
- python - 如果其中一个任务失败,我如何中止在多个主机上并行运行的一组结构任务?