更新时间:2022-08-12 11:26:34

信息抽取指的是从基础数据中抽取待创建知识网络的实体、属性信息以及实体间的相互关系。此步骤的⽬的是从原始数据中抽取信息,为步骤五知识映射做准备。


一、 选择数据源 

我们为您提供了三种抽取方式,能够帮助您更准确的从原始数据中抽取到所需要的信息。

 

1. 标准抽取

标准抽取方式中,需要您选择结构数据以及csv或json格式的数据进行预测抽取。


 

操作方式:

1. 选择【选择数据源】> 选择【标注抽取】> 选择【数据源名称】 > 选择【数据文件】并预览 > 点击【确定】按钮 > 添加成功后

 

2. 模型抽取

在这里我们依旧为您内置了几款模型,如人工智能模型、通用模型、文档知识模型,后续支持用户自定义模型。此处选择的模型需和本体中导入的模型相同。


操作方式:

1. 选择【选择数据源】> 选择【模型抽取】> 选择【数据源名称】及【数据文件】 > 选择【模型】并预览 > 点击【确定】按钮 > 添加成功




3. 标注抽取

标注抽取是为爱数公司Tagger标注工具所提供的的方式。在Tagger中标注完数据后可导出json文件,引用后进行单一预测抽取。

操作方式:

1. 选择【选择数据源】> 选择【标注抽取】> 选择【数据源名称】 > 选择【数据文件】并预览 > 点击【确定】按钮 > 添加成功



二、 数据源展示板

为了您补充修改抽取规则的方便,我们为您提供了数据源可视化看板。通过看板您可查看单一文件数据详情、文件夹中包含的文件。

Tips数据可能过大造成浏览器无法承受,当前板块针对展示。数据表默认展示前50行、100列或数据前2w字符



三、 抽取规则

系统自动将您选择的数据源中实体类名、属性字段提取。

关于操作:
1. 【新增】按钮:可以新增一组实体类名与属性字段。但在同实体类名下,不可创建同一属性字段。
2. 【删除】按钮:可以删除不需要抽取的一组实体类名与属性字段。但通过“模型抽取”与“标注抽取”方式预测出的抽取规则,是不支持编辑、删除操作。
3. 【上一步】按钮:可以返回至知识网络的创建本体,修改相关信息
4. 【下一步】按钮:进入步骤五「知识映射」



四、小贴士

1. 在「创建本体」中,预测任务时选择「数据源」导入,且没有点击【解绑】按钮去解绑数据源的情况下,相关联的数据源会直接被带入到「信息抽取」中进行预测抽取,无需再手动选择;
2. 通过“模型抽取”与“标注抽取”方式预测出的抽取规则,是不支持编辑、删除操作。但可自定义新增内容,对新增内容支持编辑、删除操作。


 

五、 术语

实体类名:
在数据源中的实体类。它具有是有可区别性且独立存在的某种事物。

属性字段:
在数据源中可代表数据源的属性。