首页 > 解决方案 > 用于在两组字符串之间匹配模式的机器学习模型?

问题描述

我正在尝试使用机器学习学习由某个服务执行的 HTML 转换。我已将我的问题分解为模式匹配问题。现在我正在尝试学习转换标签的模式。例如,对于相同的数据,我在原始 HTML“html、body、div、h1”中有这种模式,在转换后的页面“html、body、div、div、div”中有以下模式。我有 14000 个这样的数据点,我想训练一个模型,该模型将作为原始页面的输入模式并输出转换后的模式。我研究了一些 NLP 模型,但要么我没有完全理解它们,要么它们没有太大帮助。如果有人可以给我任何指示,或者最好建议一些基于 python 的模型,那就太好了。

标签: pythonmachine-learning

解决方案


您的问题不够清楚,无法为您提供一些答案,但我仍然能够确定您的输入将是字符串模式中的 html 标签,而您的输出也是 html 标签的字符串模式。

您可以使用双向 LSTM 或 CRF 来完成此类任务。阅读它们,您将有一个清晰的想法。

但是,如果相同的输入模式给出多个输出模式,那么大多数 ML 算法将难以学习。您可以删除这些数据点,一切顺利。


推荐阅读