共查询到19条相似文献,搜索用时 125 毫秒
1.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进了的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52%的较好的效果,验证了该方法的有效性. 相似文献
2.
3.
基于最大熵原理的汉语词义消歧 总被引:3,自引:0,他引:3
词义消歧是自然语言处理中亟待解决的一个关键问题,本文提出一种基于最大熵模型的有监督的机器学习方法,用于汉语词义消歧。该方法综合了词标记、词性、主题等上下文特征,并用一种统一的表示方法规范化特征形式,解决了多种不同特征之间的融合和特征的知识表示。实验对20个汉语高频多义词进行了测试,平均正确率为87%,验证了该方法的有效性。 相似文献
4.
词义消歧要解决的问题是如何让计算机理解多义词在特定的上下文环境中具体代表的语义。多义词多为常用词,在语料中出现的频率很高。确立一种合适的建模方法,并选择一种行之有效的机器学习方法,是解决词义消歧问题的首要任务。贝叶斯模型在词义消歧中的构建和实现上相对要简便易用,机器学习过程也简洁高效,特别是贝叶斯模型作为词义消歧工具,无论是实现的效率,还是消歧的效果都比较理想。 相似文献
5.
词语的歧义问题给语言的自动理解造成了困难,词义消歧研究是解决该问题的方法。当前统计学习的方法在该问题的研究上得到了普遍的应用,然而限于训练语料的规模,统计词义消歧方法还不能获得十分满意的结果。如何在有限规模的训练语料的条件下,提高统计学习的效率,改善学习效果,是有监督词义消歧方法研究上的热点问题。在词语扩展思想的基础上,设计了一种以基于指示词扩展的词义消歧新方法,并通过实验证明该方法可以在不增大训练语料规模的前提下提高有监督词义消歧的精度。 相似文献
6.
7.
8.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。 相似文献
9.
基于对数模型的词义自动消歧 总被引:9,自引:0,他引:9
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能. 相似文献
10.
基于MDL聚类的无导词义消歧 总被引:2,自引:0,他引:2
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.提出了一种无导词义消歧的方法,该方法以hownet词库为词典,采用二阶上下文构造上下文向量,使用MDL算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在8个汉语高频多义词的测试中取得了平均准确率81.12%的较好的效果. 相似文献
11.
一种基于词矢量的汉语语义量化模型 总被引:6,自引:0,他引:6
通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题,描述了模型的建立方法及其在汉语词义排歧中的应用,最后通过构造伪词的方法对模型的语义辨识能力进行了评测。实验表明该语义量化模型具有很好的语义表示能力,并且由于模型的建立是通过对大规模生语料库的统计来完成的,避免了人工对词语语义进行量化时所需的庞大工作量,从而可以运用于许多与语义相关的自然语言处理任务中。 相似文献
12.
基于X结构的词义选择利用单词所在的X结构,并与词典的用法部分的X结构相比较,通过比较结构及结构中其它词的相似性来决定单词的含义,单词间的相似性利用WordNet来实现.这一方法只要较少的学习例子,可以避免传统的基于单词同现的方法中需要大量的语料库及数据稀少等问题。 相似文献
13.
基于义原同现频率的汉语词义排歧方法 总被引:19,自引:0,他引:19
词义排岐是自然语言处理的重点和难点问题之一。基于语料库的统计方法已被广泛地应用于词义排岐,大多数的统计方法都受到数据稀疏的困扰,对于词义排岐而言,由于有大量同义词的存在,数据稀疏问题变得更为严重。充分利用“知网”这个知识源的特性,提出了一种基于义原同现频率的同义排岐方法,在很大程度上克服了数据稀疏问题。此外,该方法还避免了繁重的人工标注语料的过程,通过在一个约10万字的语料库上获得义原同现频率矩阵,并以此作为词义排岐的依据,实验表明,该方法对词义排岐具有较高的正确率。 相似文献
14.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上 相似文献
15.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。 相似文献
16.
基于N层向量空间模型的信息检索算法 总被引:14,自引:0,他引:14
N层向量空间模型在传统向量空间模型的基础上提出了的一种新的信息检索算法模型,这种模型将一篇文档从逻辑上划分为N个相对独立的文本段,然后按照文本段的内容建立文本特征向量以及文本权值向量,在此模型的基础上,更为精确地定义了特征值向量和相似度的计算方法,使之能比较好地适应文档集合的动态扩充,理论分析和实验结果表明,基于此模型实现的信息检索算法具有较快的查找速度和较高的查准率。 相似文献
17.
18.
针对目前抑郁症的诊断方式单一、诊断率低等问题,提出一种基于词向量的多维度正则化SVM社交网络抑郁倾向检测方法.通过人工标注获得训练数据,并请心理学硕士对数据进行验证,确保数据的可用性.在预处理阶段,统计得到常用的抑郁词,使用腾讯词向量进行文本向量化及用户向量化,在构建向量的过程中加入TF-IDF和抑郁词权重因子;在训练... 相似文献
19.
词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。研究了一种基于知网的语义剪枝算法,来解决自然语言处理过程中的词义排歧问题。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,开发了一个手工标注交互环境,并使用了召回率和简化率2 个指标。对窗口的尺寸和分析单元的选取对召回率和简化率的影响进行了研究。 相似文献