python - TypeError:描述符“split”需要一个“str”对象但收到一个“bytes”
问题描述
我正在尝试使用 Github 上提供的 python 脚本从 ESPN Cricinfo 抓取数据。代码如下。
import urllib.request as ur
import csv
import sys
import time
import os
import unicodedata
from urllib.parse import urlparse
from bs4 import BeautifulSoup
BASE_URL = 'http://www.espncricinfo.com'
for i in range(0, 6019):
url = 'http://search.espncricinfo.com/ci/content/match/search.html?search=first%20class;all=1;page='
soupy = BeautifulSoup(ur.urlopen(url + str(i)).read())
time.sleep(1)
for new_host in soupy.findAll('a', {'class' : 'srchPlyrNmTxt'}):
try:
new_host = new_host['href']
except:
continue
odiurl = BASE_URL + urlparse(new_host).geturl()
new_host = unicodedata.normalize('NFKD', new_host).encode('ascii','ignore')
print (new_host)
print (str.split(new_host, "/"))[4]
html = urllib2.urlopen(odiurl).read()
if html:
with open('espncricinfo-fc/{0!s}'.format(str.split(new_host, "/")[4]), "wb") as f:
f.write(html)
错误就在这一行。
print (str.split(new_host, "/"))[4]
TypeError:描述符“split”需要一个“str”对象,但收到了一个“bytes”,您将得到任何帮助。谢谢
解决方案
采用
str.split(new_host.decode("utf-8"), "/")[4]
.decode("utf-8")
显然是最重要的部分。这会将你的byte
对象变成一个字符串。
另一方面,请注意urllib2
(顺便说一句,您正在使用但未导入)不再使用(请参阅this)。相反,您可以使用from urllib.request import urlopen
.
编辑:这是完整的代码,不会给您在问题中描述的错误。我要强调的是,因为没有先前创建的文件,该with open(...)
语句会给你一个FileNotFoundError
.
import urllib.request as ur
import csv
import sys
import time
import os
import unicodedata
from urllib.parse import urlparse
from bs4 import BeautifulSoup
from urllib.request import urlopen
BASE_URL = 'http://www.espncricinfo.com'
for i in range(0, 6019):
url = 'http://search.espncricinfo.com/ci/content/match/search.html?search=first%20class;all=1;page='
soupy = BeautifulSoup(ur.urlopen(url + str(i)).read())
time.sleep(1)
for new_host in soupy.findAll('a', {'class' : 'srchPlyrNmTxt'}):
try:
new_host = new_host['href']
except:
continue
odiurl = BASE_URL + urlparse(new_host).geturl()
new_host = unicodedata.normalize('NFKD', new_host).encode('ascii','ignore')
print(new_host)
print(str.split(new_host.decode("utf-8"), "/")[4])
html = urlopen(odiurl).read()
if html:
with open('espncricinfo-fc/{0!s}'.format(str.split(new_host.decode("utf-8"), "/")[4]), "wb") as f:
f.write(html)
推荐阅读
- html - chrome中的负十进制输入
- django - Django CMS 表单的自动回复/确认电子邮件
- java - MapStruct 嵌套列表源以展平目标
- google-cloud-platform - 如何使用 BigQuery 从经纬度坐标中获取时区?
- javascript - 为什么我在安装 NestJS 客户端时会收到此错误?
- hdfs - HDFS 无法获取块长度
- node.js - 可以使用 NestJS 在静态上下文中注入依赖项吗?
- python - 在python中写入csv文件时删除行空格
- html - 为什么第一个内嵌块锚定在底部?
- python - 为什么这个包含 reverse() 的 python 代码不起作用?