首页 > 解决方案 > 清理从网站上抓取的数据并构建干净的 Pandas Dataframe

问题描述

我正在练习我的网络抓取,并且很难清理数据并将其放入 DataFrame 以供以后操作。我的代码是这样的:

import requests as re
import urllib.request as ure
import time
from bs4 import BeautifulSoup as soup
import pandas as pd

myURL = "http://naturalstattrick.com/games.php"
reURL = re.get(myURL)
mySoup = soup(reURL.content, 'html.parser')
print(mySoup)

从中,我想隔离日期、球队和得分 - 它总是以 < b > 开头,然后是空格连字符空格,然后是客队(可以是 31 支球队中的 1 支)、空格、客队得分、逗号空格、主队、空格,homeTeamScore,以</b>结尾。

然后我想将所有以 <td> 开头并以 < /td> 结尾的数字数据隔离到它们自己的列中,但显然是在游戏记录旁边。

标签: pandasdataframeweb-scrapingnormalizationdata-cleaning

解决方案


推荐阅读