python - 为什么漂亮的汤不显示页面的第一块 HTML 代码?
问题描述
我正在使用 VirtualStudio 代码,当我打印 page_soup 时,我得到了一大堆 html 代码,但它似乎缺少包括第一个“doctype html”语句在内的开始行。
import bs4
import urllib
from urllib.request import urlopen as uReq
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup
#For sites that can't be opened due to Urllib blocker, use a Mozilla User agent to get access
pageRequest = Request('https://coronavirusbellcurve.com/', headers = {'User-Agent': 'Mozilla/5.0'})
htmlPage = urlopen(pageRequest).read()
page_soup = soup(htmlPage, 'html.parser')
print(page_soup)
解决方案
推荐阅读
- ruby-on-rails - 使用 Rails 服务器 URL 显示图像
- android - com.jaygoo.widget.RangeSeekBar : Android Seekbar 沿 seekbar 显示进度值
- html - 将项目放置在导航栏中的问题
- jquery - 简单的 jQuery 选项卡在 while 循环 wordpress 中不起作用
- excel - 将文本文件复制到 Excel
- laravel - 用户使用 Laravel 使用 Azure AD 和数据库身份验证登录
- python - 如何在烧瓶中创建原始 http 响应?
- amazon-ec2 - Windows 的 AWS SSM ping 状态连接丢失
- java - 如果 DAO 处理 @JsonInclude 带注释的对象,会有什么问题?
- c# - identityserver 4-从代码进行身份验证时没有子标识