keras - 如何区分 Apple 平台上的代码和“人类文本”?
问题描述
简而言之,我的问题:对于给定的字符串,我想确定它是一段代码,还是人类语言的自由格式文本。这应该适用于设备本地的 Apple 设备(macOS 和 iOS)。
所以:
- 如果输入字符串是
body { color: #c00; }
,则可以归类为css
或code
。(同样适用于更复杂的多行代码片段。) - 如果输入是
the quick brown fox jumps over the lazy dog
,则应归类为text
。
我想到了使用 CoreML。有一个很好的例子来说明如何识别一种编程语言。它遗漏了我使用的一个关键部分:如果检测与任何编程语言都不匹配,则没有“其他”类别。CoreML 也不提供预测的置信度分数。(如果所有语言的置信度得分都很低,我可以假设文本不是代码。)
使用 CoreML 解决此问题的一种方法是在编程语言示例旁边也使用人类语言训练我的模型,但我真的不想这样做,我想保持模型大小相当小。
有一些基于 Keras 的相关工作可用,我可以看到它能够输出每种语言的置信度分数。不过,我不是 Keras 或 ML 方面的专家,也不知道如何将其带到 Apple 世界。
我可以使用什么解决方案来区分 Apple 平台上的“代码”和“文本”?(识别特定的编程语言将是一个奖励,但并非绝对需要。)不一定必须基于机器学习,尽管这似乎是最有希望的途径。
解决方案
推荐阅读
- c# - 'HttpContext' 不包含 c# .net 框架 4.5 中的'GetOwinContext' 的定义
- angular - VS 2019 解决方案构建错误,原因是导出赋值的表达式必须是环境上下文中的标识符或限定名称
- wordpress - 在插件设置中显示 WordPress 编辑器
- stripe-payments - Stripe 每次付款都会创建一个新客户
- c++ - 如何以可靠的方式将 std::vector 转换为 char **?
- c++ - clang vs gcc:使用运算符重载的函数查找
- python - Python逗号用于循环条件逗号分隔
- python - Google Cloud Storage - Python 客户端 - 获取 blob 的链接 URL
- reactjs - 使用 Material UI 向上滚动时,如何为导航添加背景颜色?
- audio - 为 WebM 视频添加静音轨道