论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取

阅读量：4201 次

发布时间：2019-05-26

本文共 850 字，大约阅读时间需要 2 分钟。

论文笔记整理：吴涵，天津大学硕士，研究方向：自然语言处理

Paper:https://www.aclweb.org/anthology/P19-1430/

Code:https://github.com/thunlp/Chinese_NRE

引入

中文NER问题在很大程度上取决于分词的效果，所以在中文NER问题中，学者们通常先对文本进行分词然后再预测序列中单词的类别。这样一来会导致一个问题，即在分词中造成的错误会影响到NER的结果。

如果单纯采用字向量的话会导致拆开了很多并不应该拆开的词语，从而丢失了它们本身的内在信息（比如“人生”这个词如果拆成字向量就成了“人”和“生”，这两个字的单独含义明显与它们组合起来的词的含义大相径庭）。为了解决这个问题，该论文使用了一种新型的格子结构（latticestructure），它能够将单词本身的含义加入基于字向量的模型中，并引入义原作为外部知识。

文章摘要

本文在ACL2018的一篇论文《ChineseNER Using Lattice LSTM》上加以改进，加入了义原作为外部知识，可以更好地理解语义信息。

由于同时考虑了词格作为一个cell，自然网络中路径就变多，所以要对于基本的LSTM网络的计算公式加以修改：

对词格结尾的字符（如图中的“市”）进行计算时，会有一点不同：由于向“市”的cell有两个信息流的输入，故需要再加一个inputgate，两个门同时通过不同的信息流，需要设置权重：

本文模型：引入义原作为外部知识

加入义原后，计算时，在词格cell状态的计算上考虑不同义项带来的影响，并为不同的义项设置不同的权重：

实验结果：

通过与基于词粒度和字符粒度模型进行比较，可以得出，加入义原的多粒度模型可以获得更好的效果，同时，词格模型也是性能提升的重要原因。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

转载地址：http://qxsli.baihongyu.com/

你可能感兴趣的文章

MySQL数据库高并发优化配置

mysql一: 索引优化

测试人员，今天再不懂BDD就晚了！

是QA还是AQ？

害怕自动化(1)

Script and Test Data

在ITPub上发表文章《如何进行测试自动化的成本估算》

深圳市软件质量提升工程系列活动——安全测试百人大课堂

做培训讲师就像做一名导演

深圳51testing笔架山一日游

LoadRunner如何在脚本运行时修改log设置选项？

QC数据库表结构

自动化测试工具的3个关键部分

测试工具厂商的编程语言什么时候“退休”？

资源监控工具 - Hyperic HQ

LoadRunner中Concurrent与Simultaneous的区别

SiteScope - Agentless监控

QTP的智能识别(Smart Identification)过程

LoadRunner各协议所需耗费的内存资源表

AutomatedQA收购Smart Bear？

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-25 05:28:11 当前IP: 3.137.212.124 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我