首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对词语向量化表示的问题,根据词语词向量表示的思想以及借助多义词词典,在K-means聚类多义词语上下文表示的基础上,获得词语的多原型向量表示.对句子中的多义词语,通过计算词语多原型向量表示与词语上下文表示的相似度来进行词义消歧,根据2个句子集中共有词语和差异词语的词义相似度,给出一种基于词语多原型向量表示的句子相似度计算方法,实验结果显示了该方法的有效性.  相似文献   

2.
盛晓光  王颖  钱力  王颖 《电子与信息学报》2021,43(12):3442-3450
为解决学者与成果的精确匹配问题,该文提出了一种基于图卷积半监督学习的论文作者同名消歧方法。该方法使用SciBERT预训练语言模型计算论文题目、关键字获得论文节点语义表示向量,利用论文的作者和机构信息获得论文的合作网络和机构关联网络邻接矩阵,并从论文合作网络中采集伪标签获得正样本集和负样本集,将这些作为输入利用图卷积神经网络进行半监督学习,获得论文节点嵌入表示进行论文节点向量聚类,实现对论文作者同名消歧。实验结果表明,与其他消歧方法相比,该方法在实验数据集上取得了更好的效果。  相似文献   

3.
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。  相似文献   

4.
首先分析了古汉语词义义项的分布情况与特点,考察了词义消歧的难点.然后在现有的词义消歧理论和方法的基础上,基于机器自动学习的统计模型条件随机场,选择上下文的词及其词性的复合特征,并加入其他适当语言学特征,设计6个不同的模板,对"將"、"如"、"我"、"信"、"聞"、"之"等古汉语高频词进行了词义消歧实验.实验最高平均F值达到了83.04%,高于最大熵、朴素贝叶斯模型,结果表明,选择合适的特征,条件随机场模型在古汉语词义消歧方面有效可行.  相似文献   

5.
基于信息增益改进贝叶斯模型的汉语词义消歧   总被引:2,自引:0,他引:2  
词义消歧一直是自然语言处理领域的关键问题和难点之一.通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节.该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型.通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果.该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性.  相似文献   

6.
基于双词主题模型的半监督实体消歧方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
张雄  陈福才  黄瑞阳 《电子学报》2018,46(3):607-613
针对实体上下文信息主题漂移的问题,提出一种基于双词主题模型的实体消歧方法.方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的思想,将协同实体关系融合到主题模型中,并在此基础上利用维基百科知识库,进行半监督消歧.本文最后在网络文本数据上进行了相关的实验,验证了所提算法的有效性.实验表明该方法有效的提高了实体消歧精度.  相似文献   

7.
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性.  相似文献   

8.
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度.  相似文献   

9.
基于等价伪译词模型的无指导译文消歧研究   总被引:2,自引:1,他引:1  
该文提出了一种基于等价伪译词进行无指导译文消歧的方法.该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词.利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例.由这些实例得到的目标语语义知识,可直接形成该等价伪译词的语义分类器.利用Hownet可将含目标歧义词的英语实例映射成汉语诃集合,然后利用这个语义分类器进行译文消歧.在国际标准语义评测集上进行的测试表明,该方法优于其余两种自动获取已标注语料的系统,且与Senseva1-2 ELS上可比较的最好无指导系统的性能相当.  相似文献   

10.
徐超  周一民  沈磊 《电子与信息学报》2010,32(11):2695-2700
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号