python - 错误:“utf-8”编解码器无法解码位置 0 中的字节 0xb0:google colab 中的无效起始字节
问题描述
import PyPDF4
from google.colab import files
files.upload()
fileReader = PyPDF4.PdfFileReader('ITC-1.pdf')
s=""
for i in range(2, fileReader.numPages):
s+=fileReader.getPage(i).extractText()
sentences = []
while s.find('.') != -1:
index = s.find('.')
sentences.append(s[:index])
s = s[index+1:]
text_ds = tf.data.TextLineDataset('ITC-1.pdf').filter(lambda x: tf.cast(tf.strings.length(x), bool))
vectorize_layer.adapt(text_ds.batch(1024))
inverse_vocab = vectorize_layer.get_vocabulary()
上面代码的最后一行显示了错误。我看了几篇文章来理解它的含义,但似乎没有一个解决方案对我有用。我无法使用本地机器,因为我需要访问 GPU。请为此提出解决方法。谢谢!
PS:按照这里的代码https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/tutorials/text/word2vec.ipynb#scrollTo=haJUNjSB60Kh,区别在于方式我正在阅读文件。如果有更好的方法,请告诉我!
解决方案
import pdfplumber
from tensorflow.keras.layers.experimental import preprocessing
import tensorflow as tf
f = open('test.txt', 'w')
with pdfplumber.open(r'test.pdf') as pdf:
for page in pdf.pages:
f.write(page.extract_text())
f.close()
layer = preprocessing.TextVectorization()
text_ds = tf.data.TextLineDataset('test.txt').filter(lambda x: tf.cast(tf.strings.length(x), bool))
layer.adapt(text_ds.batch(1024))
inverse_vocab = layer.get_vocabulary()
你可以这样做:
- 使用 pdfplumber 阅读 pdf。
- 将页面写入文本文件。
- 然后使用该文本文件创建数据集。
推荐阅读
- c# - 使用 ASP .NET Core 搭建多租户环境的方法
- javascript - 在 JS 中“动态”调用一个函数,例如
- c++ - Boost locale - 创建临时文件时需要取消设置 LANG
- python - ValueError:无法在位置 0 解析字符串“15,181.80”
- python - 尝试在 google collab 上使用 tensorflow 时无法识别图像文件
- sql - 如何在更新语句条件中使用计数?
- php - file_get_contents:找不到包装“https”(XAMPP / Windows)
- c# - 如何在 C# 中进行 AES128 解密?
- android - I got this error when google play testing my app
- dart - Can exceptions thrown in dart streams be handled by subscribers without closing the stream?