python - 用于在两组字符串之间匹配模式的机器学习模型?
问题描述
我正在尝试使用机器学习学习由某个服务执行的 HTML 转换。我已将我的问题分解为模式匹配问题。现在我正在尝试学习转换标签的模式。例如,对于相同的数据,我在原始 HTML“html、body、div、h1”中有这种模式,在转换后的页面“html、body、div、div、div”中有以下模式。我有 14000 个这样的数据点,我想训练一个模型,该模型将作为原始页面的输入模式并输出转换后的模式。我研究了一些 NLP 模型,但要么我没有完全理解它们,要么它们没有太大帮助。如果有人可以给我任何指示,或者最好建议一些基于 python 的模型,那就太好了。
解决方案
您的问题不够清楚,无法为您提供一些答案,但我仍然能够确定您的输入将是字符串模式中的 html 标签,而您的输出也是 html 标签的字符串模式。
您可以使用双向 LSTM 或 CRF 来完成此类任务。阅读它们,您将有一个清晰的想法。
但是,如果相同的输入模式给出多个输出模式,那么大多数 ML 算法将难以学习。您可以删除这些数据点,一切顺利。
推荐阅读
- amazon-web-services - --rest-api-id 和 --resource-id 是什么,我在哪里可以找到它们?
- python - python子进程问题和字母b作为结果
- if-statement - Clojure:if中的多个任务
- javascript - javascript 如何在 webview 自定义 uri 操作中调用并在移动应用程序中捕获?
- python - Pandas:默认情况下在新图形上绘制系列
- php - PHP数组中值的量化状态?
- android - Rxjava, combineLatest 和 RxTextView 内存泄漏
- python-3.x - 使用云功能将 Firestore 导出到 Cloud Storage
- velocity - 如何逃避速度中的“”
- firebase - Flutter Firebase Auth / Google_sign_in 无法使用 statuscode=CANCELED 登录