python - 我无法将抓取的数据分成不同的类别
问题描述
我需要 python 专家的帮助。这是一个网站,我必须抓取表格数据并将其分成四个不同的类别,然后将其转换为 excel 文件,但问题是所有表格类别的类都是相同的。
应该有不同的四个类但相同的四个类
谢谢玛丽芙
import requests
from bs4 import BeautifulSoup
import csv
import re
import pandas as pd
url = "https://www.kpaa.or.kr/kpaa/eng/list.do?"
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all(class_='title')
for item in items:
n = item.text
print(n)
df = pd.Dataframe({'name':n, 'office':n, 'phone':n, 'email':n})
解决方案
这是我尝试将单个数据转换为二维列表以在数据熊猫数据框中使用。
from bs4 import BeautifulSoup
import csv
import re
import pandas as pd
url = "https://www.kpaa.or.kr/kpaa/eng/list.do?"
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
data_list = [td.getText(strip=True, separator=',').split(',') for td in soup.find('div', {'class':'cont_box2'}).find_all('tr')[:-1]]
df = pd.DataFrame(data_list)
df.to_excel('x.xlsx')
推荐阅读
- java - 由于 java.lang.NoSuchMethodError,Tomcat 7 无法部署应用程序
- html - 将标签推送到下一行而不是溢出
- sed - 当行(来自管道)包含带有 GNU sed 的模式时,将 \n 替换为 \r
- java - How to make code work with try-catch? BMI Exceptions
- wine - 使用 winedbg 捕获系统调用
- c - 在 C 中使用数组处理文件
- java - 使用 Netty 阻塞 Tcp 请求
- ip - 为什么我们没有用完 IP 地址?
- java - 将二叉树更改为堆时重新分配父节点和子节点
- javascript - 测试连接的组件