博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取
阅读量:4201 次
发布时间:2019-05-26

本文共 850 字,大约阅读时间需要 2 分钟。

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理


Paper:https://www.aclweb.org/anthology/P19-1430/

Code:https://github.com/thunlp/Chinese_NRE

 

引入

中文NER问题在很大程度上取决于分词的效果,所以在中文NER问题中,学者们通常先对文本进行分词然后再预测序列中单词的类别。这样一来会导致一个问题,即在分词中造成的错误会影响到NER的结果。

如果单纯采用字向量的话会导致拆开了很多并不应该拆开的词语,从而丢失了它们本身的内在信息(比如“人生”这个词如果拆成字向量就成了“人”和“生”,这两个字的单独含义明显与它们组合起来的词的含义大相径庭)。为了解决这个问题,该论文使用了一种新型的格子结构(latticestructure),它能够将单词本身的含义加入基于字向量的模型中,并引入义原作为外部知识。

 

文章摘要

    本文在ACL2018的一篇论文《ChineseNER Using Lattice LSTM》上加以改进,加入了义原作为外部知识,可以更好地理解语义信息。

由于同时考虑了词格作为一个cell,自然网络中路径就变多,所以要对于基本的LSTM网络的计算公式加以修改:

 

对词格结尾的字符(如图中的“市”)进行计算时,会有一点不同:由于向“市”的cell有两个信息流的输入,故需要再加一个inputgate,两个门同时通过不同的信息流,需要设置权重:

本文模型:引入义原作为外部知识

 

加入义原后,计算时,在词格cell状态的计算上考虑不同义项带来的影响,并为不同的义项设置不同的权重:

 

 

实验结果

 

  通过与基于词粒度和字符粒度模型进行比较,可以得出,加入义原的多粒度模型可以获得更好的效果,同时,词格模型也是性能提升的重要原因。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

转载地址:http://qxsli.baihongyu.com/

你可能感兴趣的文章
MySQL数据库高并发优化配置
查看>>
mysql一: 索引优化
查看>>
测试人员,今天再不懂BDD就晚了!
查看>>
是QA还是AQ?
查看>>
害怕自动化(1)
查看>>
Script and Test Data
查看>>
在ITPub上发表文章《如何进行测试自动化的成本估算》
查看>>
深圳市软件质量提升工程系列活动——安全测试百人大课堂
查看>>
做培训讲师就像做一名导演
查看>>
深圳51testing笔架山一日游
查看>>
LoadRunner如何在脚本运行时修改log设置选项?
查看>>
QC数据库表结构
查看>>
自动化测试工具的3个关键部分
查看>>
测试工具厂商的编程语言什么时候“退休”?
查看>>
资源监控工具 - Hyperic HQ
查看>>
LoadRunner中Concurrent与Simultaneous的区别
查看>>
SiteScope - Agentless监控
查看>>
QTP的智能识别(Smart Identification)过程
查看>>
LoadRunner各协议所需耗费的内存资源表
查看>>
AutomatedQA收购Smart Bear?
查看>>