web-scraping - 从 EAN/UPC 谷歌搜索中排名第一的网站抓取数据
问题描述
我很好奇以下自动化是否可行:
- 在Google 上搜索UCP /EAN 代码(例如
8710103703631
) - 从与Product相关的第一个排名页面中抓取和解析数据(取决于可用的数据):
- 姓名
- 牌
- 模型
- 图片
- 描述
只是想了解这可能有多复杂。
谢谢!
解决方案
通过 API 查找 EAN/UPC 代码
有一些免费的网络 API(反向)查找条形码 (EAN/UPC) 或提供附加信息。
例如ean-search.org是一个由 EAN 查询并提供 XML 的 REST API(例如,为您的示例“Philips Sonicare”提供到 Amazon 的链接)。
使用 API 的好处:即用型数据,无需抓取。
网络抓取搜索结果
当然,您可以使用搜索引擎(如 google、duckduckgo 等)并使用最喜欢的网络抓取库以您所需的编程语言搜索条形码:
推荐阅读
- tomcat - 与 mime 类型相关的 Solr 全索引错误
- c# - IIS 网站在计算过程中响应缓慢
- javascript - 使用 JSON 文件 Highcharts 的钻取图
- react-native - 无法在没有互联网连接的情况下在 LAN 上运行 expo 项目
- java - 龙目岛没有创建默认构造函数导致杰克逊数据绑定失败
- php - 未捕获的类型错误:$(...).modal
- php - 如何使用更新批量查询更改 codeigniter 中的多行
- java - 两个线程Java之间的静态值共享
- c# - System.IndexOutOfRangeException: index was outside the bounds of the array c#... 代码附在下面。请帮帮我
- android - 无法在 Android Studio 中使用 bundletool 生成 APK