python - 用于自动将文档归档到正确文件夹的机器学习方法
问题描述
我想知道是否有人对以下场景的正确方法和合适的算法有任何想法:
有数千个不同的文档,每个文档都有自己的分类编码。这些文件到达系统后,需要用户手动归档到正确的文件夹中。例如
解决方案
我使用文档名称为一个已用于超过 100 万份文档的模型做出了贡献。简短的回答是肯定的,但是
我知道这很无聊,但是:除非真的必须,否则不要使用机器学习。如果没有乐趣,维护生产模型最终会比您预期的要多得多。此外,只要代码数量很小,比如少于 1000,我就很想创建映射。即使你想创建一个模型,从长远来看,有一个基于规则的解决方案可以作为基准它对于获得利益相关者的信任非常宝贵。
如果您确实采用建模方法来学习这种类型的映射,则应该可以使用一些基本算法,例如决策树或更复杂的表亲、随机森林分类器和梯度提升机器。对于任何算法、数据科学基础、了解客户的真实需求、彻底的 EDA 和合理的实验设计,这将真正成为您构建的产品最终是否能帮助任何人的关键。
无论您采用哪种方法,我都建议您保持迭代的心态,从简单、评估和逐步增加复杂性(例如为每个用户定制模型)开始。就像您使用传统的软件产品/项目一样。
看看 XGBOOST 分类器,作为开始玩的好地方。https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBClassifier
要了解有关设计依赖机器学习的产品的更多信息,我强烈推荐 Emmanuel Ameisen 撰写的“构建机器学习驱动的应用程序:从创意到产品”。
推荐阅读
- c# - 如何在 PlayerPrefs 中将秒转换为分钟
- rust - Rust 中的 let Foo(bar) = zar 是什么?
- javascript - 如何在 Spacemacs 中为 javascript 自动完成显示键入案例的所有匹配关键字
- amazon-web-services - 使用 boto3 从 dynamoDB 写入和检索最新条目
- java - 如何在 JAR 文件中隐藏密码
- html - 链接 SVG 图像的最佳方式是什么?
- python - Python 语法是否会阻止我创建此列表理解?
- reactjs - 使用 Jest 进行 React 快照测试,子组件如何从父组件调用函数?
- excel - 检查单元格是否为文本,如果是,则删除行
- git - 如何在改编文件上使用 git?