search - 如何使用给定的特定参考来构建搜索优化模型,以识别来自具有 5TB 数据的 Data Lake 中的数据和文档
问题描述
试图建立一个模型来帮助提取具有特定参考/关键字的文档......数据非常庞大......它的大小为 5+ TB......
我最初的理解是,搜索关键字要匹配文档标题或内容(文本分析),所以我正在寻找 ML 解决方案,但困难在于处理如此大的数据。我正在使用 Azure Data Lake 和 Data Bricks。
解决方案
推荐阅读
- java - 如何将 ipv6 字符串地址转换为 16 字节?
- sql - “Hebrew_CI_AS”和“SQL_Latin1_General_CP1_CI_AS”之间的排序规则冲突
- git - 有没有办法在无法推送到上游的情况下分叉一个 git 存储库?
- swift - 为什么我不能更改这个 session.dataTask() 中的实例变量?
- crystal-reports - Crystal Report - 共享变量在报表页脚中添加最后一行数据两次
- testing - Flutter 测试 - 验证资产是否存在
- mysql - 从访客或用户中选择 ipv6 的单列,以不为空的为准
- python - 将具有多个自变量和多个参数的函数传递给 scipy 优化最小化
- php - 调用未定义的方法 Laravel\Lumen\Routing\Router::prefix()
- c# - 通过(自动映射的)DTO 字段查询实体