首页 > 解决方案 > 为什么漂亮的汤不显示页面的第一块 HTML 代码?

问题描述

我正在使用 VirtualStudio 代码,当我打印 page_soup 时,我得到了一大堆 html 代码,但它似乎缺少包括第一个“doctype html”语句在内的开始行。

   import bs4
import urllib
from urllib.request import  urlopen as uReq
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as soup

#For sites that can't be opened due to Urllib blocker, use a Mozilla User agent to get access
pageRequest = Request('https://coronavirusbellcurve.com/', headers = {'User-Agent': 'Mozilla/5.0'})
htmlPage = urlopen(pageRequest).read()


page_soup = soup(htmlPage, 'html.parser')
print(page_soup)

标签: pythonhtmlweb-scrapingbeautifulsoupurllib

解决方案


推荐阅读