python - 用Python程序(urllib,request)保存网页信息和通过浏览器保存有什么区别
问题描述
当我尝试使用 python 程序打开网页时,缺少 HTML 页面的跨度类名称和 div 类信息。我尝试了 urllib.request.urlopen() 、 requests.get() 、 wget 、 robobrowser 和其他一些包来保存带有类名数据的网页,但没有成功。
url = 'https://www.google.com/maps/dir/Navallur,+Tamil+Nadu+600130/Vijayawada,+Andhra+Pradesh/@14.6711659,78.0012123,7z/data=!3m1!4b1!4m13!4m12!1m5!1m1!1s0x3a525a51439fd9f3:0x5fdacd19ed90126c!2m2!1d80.225463!2d12.8447728!1m5!1m1!1s0x3a35eff9482d944b:0x939b7e84ab4a0265!2m2!1d80.6480153!2d16.5061743'
page = urllib.request.urlopen(url).read()
page1 = requests.get(url).content
html = open('some1.html','wb')
html.write(page)
html.close()
解决方案
Python 中的 Selenium 包允许您执行 Naga 任务 :-)
from selenium import webdriver
ff = webdriver.Firefox()
ff.get(URL)
html = ff.page_sources
推荐阅读
- c# - 错误 CS1061 'Expence' 不包含 'Expence_Name' 的定义并且没有扩展方法 'Expence_Name'
- java - 在不使用方法的情况下删除数组重复项
- java - 如何解决创建和连接数据库时无法建立与jdbc的连接错误?
- .htaccess - SLIM 3 logn 中间件进入循环
- php - 在 maatwebsite 中换行不适用于 laravel
- react-native - 如何在 SwitchNavigator 下不同 StackNavigator 的屏幕之间导航?
- node.js - 如果 forEach 使用 Promise.all 而不是 async/await
- c# - 点击时没有 URL 参数
- python - 字符串连接如何在 python 中工作?
- junit4 - Maven surefire 插件在最后输出所有错误 - 在大型测试中导致 OOME