search - 如何使用给定的特定参考来构建搜索优化模型，以识别来自具有 5TB 数据的 Data Lake 中的数据和文档

首页 > 解决方案 > 如何使用给定的特定参考来构建搜索优化模型，以识别来自具有 5TB 数据的 Data Lake 中的数据和文档

问题描述

试图建立一个模型来帮助提取具有特定参考/关键字的文档......数据非常庞大......它的大小为 5+ TB......

我最初的理解是，搜索关键字要匹配文档标题或内容（文本分析），所以我正在寻找 ML 解决方案，但困难在于处理如此大的数据。我正在使用 Azure Data Lake 和 Data Bricks。

标签： searchnlpbigdatadata-sciencemachine-learning-model

解决方案

推荐阅读