python - 有没有办法使用 python-requests 访问实际上是 pdf 的网页?
问题描述
我正在尝试使用请求来下载一些实际上是 PDF 的网页的内容。
我尝试了以下代码,但返回的输出似乎没有正确解码:
link= 'http://www.pdf995.com/samples/pdf.pdf'
import requests
r = requests.get(link)
r.text
输出如下所示: '%PDF-1.3\n%�쏢\n30 0 obj\n<>\nstream\nx��}��%����\x15S�%NU���M&O7�㛔] ql������+Kr�+ْ%���/~\x00��=����{feY�T�\x05��\r�\x00�/��q�8�8 ��\x7f�\x7f�~����\x1f��O�z�7�7�o\x1f����7�\'�{��\x7f<~��\x1e? ���C�%\ByLշK����!_b^0o\x083�K\x0b\x0b�\x05z�E�S���?�~ �]rb\x10C�y�>_r�\x10 �<�K��<��!>��(�\x17���~�.m��]2\x11�� 等
我希望得到html。我也试过beautifulsoup,但它也没有解码。我希望有人能帮忙。谢谢你,BR
解决方案
是的; PDF 文件是二进制文件,而不是文本文件,因此您应该使用r.content
而不是r.text
访问二进制数据。
PDF 文件不容易以编程方式处理;但您可以(例如)将其保存到文件中:
import requests
link = 'http://www.pdf995.com/samples/pdf.pdf'
r = requests.get(link)
with open('pdf.pdf', 'wb') as f:
f.write(r.content)
推荐阅读
- c# - 在填充有 DataTable 的 DataGridView 上使用 RowFilter 的正确方法是什么?
- java - Eclipse,Java,导入突然停止被识别
- mongodb - 如何在数组中查找包含一定数量的嵌入式/嵌套文档的文档
- ios - 巨大的 iOS 应用程序大小内置反应原生
- sql - 导致大数据性能问题的条件中的 SQL IN 子句
- php - PHPExcel:在php中迭代for循环后,数据没有在列中动态导出?
- git - 如何在没有结帐的情况下选择提交到远程分支?
- reactjs - 获取在 React 中工作的 mxGraph Hello World 示例
- python - 来自 df 的字典,其中包含一个键中的列
- node.js - 在 EKS 中以 express 方式将 http 重定向到 https 不起作用