首页 > 解决方案 > 用于自动将文档归档到正确文件夹的机器学习方法

问题描述

我想知道是否有人对以下场景的正确方法和合适的算法有任何想法:

有数千个不同的文档,每个文档都有自己的分类编码。这些文件到达系统后,需要用户手动归档到正确的文件夹中。例如

标签: pythonmachine-learningdata-sciencesupervised-learningdocument-classification

解决方案


我使用文档名称为一个已用于超过 100 万份文档的模型做出了贡献。简短的回答是肯定的,但是

  1. 我知道这很无聊,但是:除非真的必须,否则不要使用机器学习。如果没有乐趣,维护生产模型最终会比您预期的要多得多。此外,只要代码数量很小,比如少于 1000,我就很想创建映射。即使你想创建一个模型,从长远来看,有一个基于规则的解决方案可以作为基准它对于获得利益相关者的信任非常宝贵。

  2. 如果您确实采用建模方法来学习这种类型的映射,则应该可以使用一些基本算法,例如决策树或更复杂的表亲、随机森林分类器和梯度提升机器。对于任何算法、数据科学基础、了解客户的真实需求、彻底的 EDA 和合理的实验设计,这将真正成为您构建的产品最终是否能帮助任何人的关键。

  3. 无论您采用哪种方法,我都建议您保持迭代的心态,从简单、评估和逐步增加复杂性(例如为每个用户定制模型)开始。就像您使用传统的软件产品/项目一样。

看看 XGBOOST 分类器,作为开始玩的好地方。https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBClassifier

要了解有关设计依赖机器学习的产品的更多信息,我强烈推荐 Emmanuel Ameisen 撰写的“构建机器学习驱动的应用程序:从创意到产品”。


推荐阅读