python - 使用 xpath 和 LXML 或 selenium 从 HTML 表中抓取数据
问题描述
我需要从这个网站的 HTML 表中提取数据: https ://1x2.lucksport.com/result_en.shtml?dt=2019-04-12&cid=156
我将 Python、selenium 和 lxml 与 xpath 一起使用
我想提取每场比赛的赔率问题是每场比赛在两排两排:tr class="dtd2",然后是两排:tr class="dtd1"
我需要允许提取第一行和他的下一行的 xpath
driver.get(u)
t = html.fromstring(driver.page_source)
for i in t.xpath('//*[@id="odds_tb"]/table/tbody/tr[@class="dtd2"]/td[1]/text()'):
解决方案
更详细的方法
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup as bs
import pandas as pd
import copy
d = webdriver.Chrome()
d.get('https://1x2.lucksport.com/result_en.shtml?dt=2019-04-12&cid=156')
WebDriverWait(d, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#odds_tb tr[class]")))
soup = bs(d.page_source, 'lxml')
rows = soup.select('#odds_tb tr[class]')
results = []
i = 1
headers = ['Competition', 'Date', 'Match' ,'OddsType', 'Home Win', 'Draw', 'Away Win', 'Result']
for row in rows[1:]:
cols = [td.text for td in row.select('td')]
if (i % 2 == 1):
record = {'Competition' : cols[0],
'Date' : cols[1],
'Match' : ' v '.join([cols[2], cols[6]]),
'OddsType' : 'average early odds',
'Home Win' : cols[3],
'Draw' : cols[4],
'Away Win' : cols[5],
'Result' : cols[7]}
else:
record['OddsType'] = 'average live odds'
record['Home Win'] = cols[0]
record['Draw'] = cols[1]
record['Away Win'] = cols[2]
results.append(copy.deepcopy(record))
i+=1
df = pd.DataFrame(results, columns = headers)
df.to_csv(r'C:\Users\User\Desktop\data.csv', sep=',', encoding='utf-8-sig',index = False )
d.quit()
推荐阅读
- symfony - Symfony webpack encore 树枝功能不起作用
- amazon-web-services - 如何在 Amazon AWS S3 存储桶中找到未加密的文件?
- sql - 如何从视图列中获取 SQLite 列类型
- json - 解析 JSON 文件而无需将其保存在文件中
- python - 使用 GPIO.RaspberryPi3 上的触发器发送电子邮件
- django - django allauth 设置 EMAIL_CONFIRMATION_AUTHENTICATED_REDIRECT_URL 不起作用
- asp.net - 使用 Ninject 进行 Asp.Net Webforms 构造函数注入
- javascript - 如何使用 Javascript 访问带有 innerHTML 的 twig 变量?
- javascript - 焦点选择的 vue.js 元素不是反应式的
- excel - 如何使用每个循环将信息传输到另一个工作表