首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 15 毫秒
随着服务技术的发展,越来越多的组织将业务功能作为服务通过网络对外发布.服务的增多导致人工对这些服务进行分类的成本越来越高.将文本挖掘、语义技术和机器学习技术相结合,提出了一个基于WordNet的服务自动分类方法.首先,利用文本挖掘技术和语义消歧技术,从服务的描述文档、社会化标注等获得可描述每个服务的一组有确切语义的Sense向量,本文选取的Sense向量是对每个API进行社会化标注的一组Tags.然后,利用K-均值聚类方法完成相应的分类.最后,以ProgrammableWeb上的服务作为测试数据进行了实验,实验表明本方法具有较好的分类效果.  相似文献   

刘宇鹏  李生  赵铁军 《自动化学报》2010,36(11):1575-1580
最近混淆网络在融合多个机器翻译结果中展示很好的性能. 然而为了克服在不同的翻译系统中不同的词序, 假设对齐在混淆网络的构建上仍然是一个重要的问题. 但以往的对齐方法都没有考虑到语义信息. 本文为了更好地改进系统融合的性能, 提出了用词义消歧(Word sense disambiguation, WSD)来指导混淆网络中的对齐. 同时骨架翻译的选择也是通过计算句子间的相似度来获得的, 句子的相似性计算使用了二分图的最大匹配算法. 为了使得基于WordNet词义消歧方法融入到系统中, 本文将翻译错误率(Translation error rate, TER)算法进行了改进, 实验结果显示本方法的性能好于经典的TER算法的性能.  相似文献   

机读字典蕴藏着非常丰富的词汇语意知识,这些知识可由自动化方式粹取出来,有效地利用在各种自然语言处理相关研究上。本研究提出一套方法,以英文版的WordNet 作为基本骨架,结合比对属类词与比对定义内容两种技巧,将WordNet同义词集对映到朗文当代英汉双语词典之词条。并藉由这个对映将WordNet同义词集冠上中文翻译词汇。在实验部分,我们依岐义程度将词汇分为单一语意与语意岐义两部分进行。在单一语意部分的实验结果,以100%的涵盖率计算,可获得97.7%的精准率。而在语意岐义部分,我们得到85.4%精准率,以及63.4%涵盖率的实验结果。  相似文献   

英语中的多音词分成两类,一是因词性不同而读音不同,一是因词义不同而读音不同。前者只需经词性标注,根据其词性标记就可判别其正确的读音。而后者则复杂得多,论文采用了一种基于WordNet语义信息的多音词消歧算法,该算法将多音词的语义信息与上下文中词的语义信息进行匹配,根据匹配结果来判别多音词的读音。  相似文献   

We briefly discuss the origin and development of WordNet, a large lexical database for English. We outline its design and contents as well as its usefulness for Natural Language Processing. Finally, we discuss crosslinguistic WordNets and complementary lexical resources.
Christiane FellbaumEmail:

WNCT:一种WordNet概念自动翻译方法   总被引:2,自引:1,他引:1  
WordNet是在自然语言处理领域有重要作用的英语词汇知识库,该文提出了一种将WordNet中词汇概念自动翻译为中文的方法。首先,利用电子词典和术语翻译工具将英语词汇在义项的粒度上翻译为中文;其次,将特定概念中词汇的正确义项选择看作分类问题,归纳出基于翻译唯一性、概念内和概念间翻译交集、中文短语结构规则,以及基于PMI的翻译相关性共12个特征,训练分类模型实现正确义项的选择。实验结果表明,该方法对WordNet 3.0中概念翻译的覆盖率为85.21%,准确率为81.37%。  相似文献   

一个汉语词义自动标注系统的设计与实现   总被引:1,自引:1,他引:1  
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。  相似文献   

Automatic generation of concept hierarchies using WordNet   总被引:2,自引:1,他引:1  
This paper examines and proposes the automatic generation of concept hierarchies using WordNet. Existing researches have mostly explored the utilization of concept hierarchies, but have not addressed the prohibitive cost occurred in building large hierarchies manually. Several studies have examined the automatic generation of concept hierarchies for the numerical type data from a database. However, very little is known about the automatic generation of concept hierarchies for the nominal type data from a database, which is the subject of this paper. We propose the WordNet library method that first eliminates the ambiguity of the senses of nominal data values, constructs the concept hierarchy by overlapping the hypernym of the remaining senses, and lastly adjusts the resultant concept hierarchy to the preference of users. The proposed method is tested with a faculty employment database of a university. The automatic generation of hierarchies turns out to save efforts of experts or designers who build the concept hierarchies, and makes the hierarchy more objectively built than it is manually done.  相似文献   

基于WordNet的本体澄清   总被引:3,自引:0,他引:3  
由于本体能够消除概念的混淆和重用知识,因此它的质量对于语义网技术的应用非常重要.为了提高本体的质量,很多的工作集中在概念建模,但是本体表示这个非常重要的方面一直被忽视.目前本体的表示使用的是词(term),但同一个词可能有很多不同的意思,这样在基于本体的应用时将导致不清楚或错误的理解.为了解决这个问题,使用定义在WordNet中的词义(sense)而不是词来作为本体的表示,其原因是词义只有唯一的意思.本体澄清的定义为利用目标词周围的本体元素和被它标注的文档附近的词,对目标词进行自动消歧的过程.通过计算目标词义和它的邻居词的语义相似度,语义相关度最大的词义将选为正确的词义.实验表明,我们的算法有很好的性能.与最好的消歧算法相比,概念(Concept)精度差不多是名词精度的2倍,关系(Property)精度差不多是动词精度的3倍.实验证明了我们的算法在半自动的本体净化过程中也是非常有效的.  相似文献   

针对目前词语相似度算法中普遍存在的信息源单一化,计算结果非线性偏高,以及计算性能和效率的不一致的缺陷,提出了一种基于边权重的WordNet词语相似度的计算方法。该方法在路径与深度的基础上,通过边权重改善WordNet结构中的层次不均匀性,引入编码概念唯一标识两个概念间的相似度,并利用余弦函数修正计算结果的非线性偏差。实验结果表明,对于MC30和RG65测试集,使用该方法计算的词语相似度值与人工判定值计算得到的Pearson相关系数均达到0.87;此外,该方法在计算性能和效率上均保持较高水平。  相似文献   

在组合映射方法的基础上,提出一种依据领域和相似度计算优先级(名称、属性、实例、结构相似度计算)的映射方法,该方法根据不同领域由领域专家提供对应优先级,进而得到映射方法,并产生计算结果,在某种程度上大大减少映射的计算量和计算时间。  相似文献   

Senseval was the first open, community-based evaluation exercisefor Word Sense Disambiguation programs. It adopted the quantitativeapproach to evaluation developed in MUC and other ARPA evaluationexercises. It took place in 1998. In this paper we describe thestructure, organisation and results of the SENSEVAL exercise forEnglish. We present and defend various design choices for theexercise, describe the data and gold-standard preparation, considerissues of scoring strategies and baselines, and present the resultsfor the 18 participating systems. The exercise identifies thestate-of-the-art for fine-grained word sense disambiguation, wheretraining data is available, as 74–78% correct, with a number ofalgorithms approaching this level of performance. For systems thatdid not assume the availability of training data, performance wasmarkedly lower and also more variable. Human inter-tagger agreementwas high, with the gold standard taggings being around 95%replicable.  相似文献   

This work combines a set of available techniques – whichcould be further extended – to perform noun sense disambiguation. We use several unsupervised techniques (Rigau et al., 1997) that draw knowledge from a variety of sources. In addition, we also apply a supervised technique in order to show that supervised and unsupervised methods can be combined to obtain better results. This paper tries to prove that using an appropriate method to combine those heuristics we can disambiguate words in free running text with reasonable precision.  相似文献   

Sound engineers need to access vast collections of sound effects for their film and video productions. Sound effects providers rely on text-retrieval techniques to give access to their collections. Currently, audio content is annotated manually, which is an arduous task. Automatic annotation methods, normally fine-tuned to reduced domains such as musical instruments or limited sound effects taxonomies, are not mature enough for labeling with great detail any possible sound. A general sound recognition tool would require first, a taxonomy that represents the world and, second, thousands of classifiers, each specialized in distinguishing little details. We report experimental results on a general sound annotator. To tackle the taxonomy definition problem we use WordNet, a semantic network that organizes real world knowledge. In order to overcome the need of a huge number of classifiers to distinguish many different sound classes, we use a nearest-neighbor classifier with a database of isolated sounds unambiguously linked to WordNet concepts. A 30% concept prediction is achieved on a database of over 50,000 sounds and over 1600 concepts.Part of the contents of this paper has been published in the Proceedings of the 2004 IEEE International Workshop on Machine Learning for Signal Processing.  相似文献   

图像自动标注是模式识别与计算机视觉等领域中的重要问题。针对现有图像自动标注模型普遍受到语义鸿沟问题的影响,提出了基于关键词同现的图像自动标注改善方法,该方法利用数据集中标注词间的关联性来改善图像自动标注的结果。此外,针对上述方法不能反映更广义的人的知识以及易受数据库规模影响等问题,提出了基于语义相似的图像自动标注改善方法,通过引入具有大量词汇、包含了人知识的结构化电子词典WordNet来计算词汇间的关系并改善图像自动标注结果。实验结果表明,提出的两个图像自动标注改善方法在各项评价指标上相比以往模型均有所提高。  相似文献   

Schema matching is the problem of finding relationships among concepts across data sources that are heterogeneous in format and in structure. Starting from the “hidden meaning” associated with schema labels (i.e. class/attribute names), it is possible to discover lexical relationships among the elements of different schemata. In this work, we propose an automatic method aimed at discovering probabilistic lexical relationships in the environment of data integration “on the fly”. Our method is based on a probabilistic lexical annotation technique, which automatically associates one or more meanings with schema elements w.r.t. a thesaurus/lexical resource. However, the accuracy of automatic lexical annotation methods on real-world schemata suffers from the abundance of non-dictionary words such as compound nouns and abbreviations. We address this problem by including a method to perform schema label normalization which increases the number of comparable labels. From the annotated schemata, we derive the probabilistic lexical relationships to be collected in the Probabilistic Common Thesaurus. The method is applied within the MOMIS data integration system but can easily be generalized to other data integration systems.  相似文献   

无监督词义消歧研究   总被引:3,自引:0,他引:3  
王瑞琴  孔繁胜 《软件学报》2009,20(8):2138-2152
研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对14个较有特色的无监督词义消歧方法进行了总结,并指出无监督词义消歧的现有研究成果和可能的发展方向.  相似文献   

当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低.为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法.在构建WordNet数据集时提出一种新形式,不再使用传统的文本语料库,同时提出信息位置排列方法对数据集加以处理.利用Wo...  相似文献   

鹿文鹏  黄河燕 《软件学报》2013,24(10):2300-2311
针对困扰词义消歧技术发展的知识匮乏问题,提出一种基于依存适配度的知识自动获取词义消歧方法.该方法充分利用依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet 获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义.该方法在SemEval 2007 的Task#7 粗粒度词义消歧任务上取得了74.53%的消歧正确率;在不使用任何人工标注语料的无监督和基于知识库的同类方法中,取得了最佳的消歧效果.  相似文献   

吕律 《计算机工程》2010,36(7):73-75
针对本体映射精确度不高的问题,提出一种基于自然语言处理的本体映射结果校验方法。对复合词进行启发式处理,分析WordNet词库中词汇所对应注释的语法树,提取与参考本体和目标本体相关的词汇,对已有的本体映射结果进行校验。实验结果表明,该方法能有效提高本体映射的精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号