javascript - Scrapy 飞溅响应不会返回完整的 html
问题描述
我正在尝试抓取此链接https://www.myntra.com/women-kurtas-kurtis-suits。但是当尝试通过splash http API渲染它时。我在下面得到了部分渲染的结果
我在这里错过了什么吗?
这是实际页面。
解决方案
如果你想抓取产品,为什么不使用默认返回的非 JS 渲染的 HTML 呢?您会在其中找到包含产品详细信息的 JSON 对象。这是您发布的网页中的一个示例:
<script type="application/ld+json"> {"@context":"https://schema.org","@type":"Product","name":"AKS Women Blue & Grey Printed Kurta with Palazzos","image":"http://assets.myntassets.com/assets/images/8076903/2018/12/8/fb0cf882-a473-4aae-86c2-edf912b70b6e1544251004970-AKS-Women-Kurta-Sets-2261544251003921-1.jpg","description":"Women Printed Kurta with Palazzos","brand":{"@type":"Thing"},"offers":{"@type":"Offer","priceCurrency":"INR","price":989},"AggregateRating":{"@type":"AggregateRating","itemReviewed":"AKS Women Blue & Grey Printed Kurta with Palazzos","ratingCount":0,"reviewCount":""}}</script>
使用 JSON Python 库,您可以提取数据并根据需要使用它。
推荐阅读
- python - 使用 Python/Flask 发布数据并创建 REST API
- python - 从多个 Word 文件中收集字符串并按顺序存储在数据框中
- mysql - 在 MySQL 'COOPERATIVE' LOCK 查询中使用占位符
- bash - 接收文件名作为参数或使用标准输入的 bash 函数
- mysql - 聚合记录的 SQL 查询
- compiler-errors - 任何人都为 Yocto 项目遇到了相同的编译失败问题?
- php - 无法将 php stomp 连接到远程 activemq
- laravel - Laravel -> 碳日期 -> 根据天设置月份周数
- tesseract - 如何在 tesseract 5 alpha lstm 训练中从 .box 和 .tif 文件生成 lstmf
- reactjs - botframework Webchat React 中的建议列表问题