pandas - 清理从网站上抓取的数据并构建干净的 Pandas Dataframe
问题描述
我正在练习我的网络抓取,并且很难清理数据并将其放入 DataFrame 以供以后操作。我的代码是这样的:
import requests as re
import urllib.request as ure
import time
from bs4 import BeautifulSoup as soup
import pandas as pd
myURL = "http://naturalstattrick.com/games.php"
reURL = re.get(myURL)
mySoup = soup(reURL.content, 'html.parser')
print(mySoup)
从中,我想隔离日期、球队和得分 - 它总是以 < b > 开头,然后是空格连字符空格,然后是客队(可以是 31 支球队中的 1 支)、空格、客队得分、逗号空格、主队、空格,homeTeamScore,以</b>结尾。
然后我想将所有以 <td> 开头并以 < /td> 结尾的数字数据隔离到它们自己的列中,但显然是在游戏记录旁边。
解决方案
推荐阅读
- javascript - 如何使用 javascript 专注于谷歌自定义搜索引擎字段?
- python - 在具有重复项的数据集上自连接
- java - Java - 查找第二高位
- node.js - 用于队列和 api 的嵌套公牛单独进程
- php - Laravel 6 控制器错误 - 目标类 [App\Http\Controllers\TestContoller] 不存在
- php - 如何使用php语言实现人工神经网络
- postgresql - 如何使用“psql”解决“错误:列缺失数据”?
- python - Python密码验证:无法在正则表达式中使用字符串库中的常量
- python - 具有 48 个变量的 Seaborn 热图
- html - 为什么href在div内包装时无法点击