首页 > 解决方案 > 如何为特定领域的聊天机器人准备数据

问题描述

我正在尝试制作一个聊天机器人。所有的聊天机器人都是由结构数据组成的。我查看了 Rasa、IBM watson和其他著名的机器人。有什么方法可以将非结构化数据转换为某种结构,可用于机器人训练?让我们考虑下面的段落-

Packaging unit A packaging unit is used to combine a certain quantity of identical items to form a group. The quantity specified here is then used when printing the item labels so that you do not have to label items individually when the items are not managed by serial number or by batch. You can also specify the dimensions of the packaging unit here and enable and disable them separately for each item.

It is possible to store several EAN numbers per packaging unit since these numbers may differ for each packaging unit even when the packaging units are identical. These settings can be found on the Miscellaneous tab: There are also two more settings in the system settings that are relevant to mobile data entry:

When creating a new item, the item label should be printed automatically. For this reason, we have added the option ‘Print item label when creating new storage locations’ to the settings. When using mobile data entry devices, every item should be assigned to a storage location, where an item label is subsequently printed that should be applied to the shelf in the warehouse to help identify the item faster.

如何从这样的数据中制作机器人,任何线索都将受到高度赞赏。谢谢!图片中的这个想法可行吗?只是一个想法

标签: ibm-watsonchatterbotrasa-corechatfuel

解决方案


您显示的数据似乎是段落搜索的良好候选者。基本上,您希望通过训练数据中最相关的段落来回答用户问题。此用例由Watson Discovery服务处理,该服务可以分析您提供的非结构化数据,然后您可以使用输入文本查询服务,并使用在数据中找到的最接近的段落来回答服务。

根据我的经验,您还可以通过实施为您的用例量身定制的自定义TF/IDF算法获得良好的结果(TF/IDF 是一个很好的相似性搜索,例如为您处理停用词)。

现在,如果您的目标是使用此类数据引导基于规则的聊天机器人,那么这些数据并不是那么理想。对于基于规则的聊天机器人,最好的数据是用户询问目标域问题和一些主题专家的答案之间的一些实际对话。使用这些数据,您至少可以进行一些分析,帮助您确定聊天机器人应该处理的相关主题和领域,但是 - 我认为 - 您将很难使用这些数据来引导一组意图(用户将询问)基于规则的聊天机器人。

TLDR 如果我想使用 Watson 服务,我会从 Watson Discovery 开始。或者,我将从 TF/IDF 开始实现我自己的搜索算法(它很好地映射到您提出的解决方案)。


推荐阅读