python - 谷歌搜索网页抓取与python中的关键字列表
问题描述
我正在尝试通过使用名称列表作为输入并在 DataFame 中获取数据集来对 Google 搜索进行网络抓取。我之前使用 selenium 进行网页抓取,我很难使用循环构建语法来运行名称列表作为输入来获取结果并抓取每个页面。下面是我的 Python 代码:
baseUrl = 'https://www.google.com/search?q='
pluseUrl = input('CEO: ')
url = baseUrl + quote_plus(pluseUrl)
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
browser.get(url)
table = browser.find_elements_by_css_selector('div.ifM9O')
df = pd.DataFrame(columns = ['ceo', 'value'])
values =[]
for row in table:
ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")
ceo = pd.Series(ceo)
value = pd.Series(value)
df = df.assign(**{'ceo': ceo, 'value': value})
print(df)
这是将比尔盖茨作为输入后的结果:
CEO: Bill gates
ceo value
0 Bill Gates Born: October 28, 1955 (age 64 years), Seattle...
任何建议或建议将不胜感激。
解决方案
尝试这个:
baseUrl = 'https://www.google.com/search?q='
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
output = {}
def scrape_ceo_list(list_of_ceo):
for ceo in list_of_ceo:
browser.get(baseUrl + ceo)
// query selectors, dataframes etc as per original code
// ...
output[ceo] = df
output
现在是一个数据框字典,以 CEO 名字作为字典键。
推荐阅读
- python - Return predictions wav2vec fairseq
- c# - .NET Core API 中的 CQS - DI 配置不起作用
- java - How to see lines drawn in real time. Java Swing
- javascript - 如何将多个元素添加到数组中
- kotlin - Moshi 工厂在从 json 字符串反序列化时忽略空值并使用 kotlin 默认值
- if-statement - 如何动态连接表单结果
- javascript - How to call an external Javascript function in a dynamic action?
- sql - Oracle 在子查询中按列分组
- java - Spring Boot caching with ContentVersionStrategy prohibits resource compression with gzip
- php - Create all combinations of array with keys