首页 > 解决方案 > 从不同域名的网站中提取FAQ内容

问题描述

目前,我使用 Scrapy 和 bs4 对单个网站的 faq 内容进行网络爬取。

但是,由于不同网站的 html 结构格式不同,每当我抓取新的常见问题页面时,我都需要调整标签或 xpath。

我发现谷歌的 Dialogflow 引入了“知识库”功能,用户只需将常见问题网站解析到他们的系统,他们就会生成常见问题列表。

现在,我正在考虑加快实现目标的方法:

我可以知道是否有任何库可以用来加速这个过程吗?或者,如果我有办法从 Dialogflow 客户端下载生成的问答对。

标签: pythonmachine-learningnlpdialogflow-esdata-extraction

解决方案


推荐阅读