命名实体识别原理与实现

ryluo 2020-06-14 01:29:22
NLP

本文介绍命名实体识别的基本原理与实现的学习笔记

命名实体识别原理与实现

语料标注的两种常用方法:

(1)语料标注

BIO:

BIOES:

B:表示开始,Begin

I:表示中间,Intermediate

E:表示结尾,End

S:表示单个字符,Single

O:表示其他,Other

也就是说一个句子或者文本可以通过这种符号的形式将其进行表示,这中任务其实是一种序列标注问题。

(2)深度学习模型训练

常用的方法:

LSTM+CRF

BERT+CRF(由于BERT预训练过程学到了大量语言知识,效果要好一些)

(3)常用的包

开源包可以用于临时需要快速验证,例如jieba, thulac, NLTK等

实体与知识图谱的结合与匹配也是未来的一大趋势,只有将抽取到的实体与知识图谱中的对应本体或实例匹配上,才能真正理解场景

实体识别本质上是一个序列标注问题,其中既有实体又有其他的东西,