首页 > 解决方案 > 如何使用给定的特定参考来构建搜索优化模型,以识别来自具有 5TB 数据的 Data Lake 中的数据和文档

问题描述

试图建立一个模型来帮助提取具有特定参考/关键字的文档......数据非常庞大......它的大小为 5+ TB......

我最初的理解是,搜索关键字要匹配文档标题或内容(文本分析),所以我正在寻找 ML 解决方案,但困难在于处理如此大的数据。我正在使用 Azure Data Lake 和 Data Bricks。

标签: searchnlpbigdatadata-sciencemachine-learning-model

解决方案


推荐阅读