python - 从不同域名的网站中提取FAQ内容
问题描述
目前,我使用 Scrapy 和 bs4 对单个网站的 faq 内容进行网络爬取。
但是,由于不同网站的 html 结构格式不同,每当我抓取新的常见问题页面时,我都需要调整标签或 xpath。
我发现谷歌的 Dialogflow 引入了“知识库”功能,用户只需将常见问题网站解析到他们的系统,他们就会生成常见问题列表。
现在,我正在考虑加快实现目标的方法:
- 从不同网站抓取常见问题解答数据。
我可以知道是否有任何库可以用来加速这个过程吗?或者,如果我有办法从 Dialogflow 客户端下载生成的问答对。
解决方案
推荐阅读
- django - Django 删除 where SET_NULL
- python - 获取正在实例化我的类的模块的名称
- sql - 在 string_agg 中排序似乎不起作用
- python - Python Checkbutton 只读取一次值
- python - 使用 Python 从 SQL 中搜索元素
- angular - 将wijmo网格的整个数据以角度5复制到剪贴板
- sql-server - 如何将图像从 DataGridView 显示到 PictureBox?
- android - 使用本机方法时,android loadLibrary 失败
- php - Laravel 将数据从 ajax 传递到位于单独文件中的模态视图,导致模态视图无法呈现
- spring - @Value("#{servletContext.contextPath}") 如何解决 @Value("${servletContext.contextPath}")