首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
冯永  张洋 《计算机应用》2012,32(1):202-205
介绍了传统的基于距离的相似度计算方法,针对其在距离计算中包含语义信息不充足的现状,提出了一种改进的使用WordNet的基于概念之间边的权重的相似性度量方法。该方法综合考虑了概念在词库中所处层次的深度和密度,即概念的语义丰富程度,设计了一种通用的概念语义相似性计算方法,该方法简化了传统语义相似性算法,并解决了语义相似性计算领域的相关问题。实验结果表明,所提方法在Rubenstein数据集上与人工判断有着0.9109的相关性,与其他经典的相似性计算方法相比有着更高的准确性。  相似文献   

2.
CCD语义知识库的构造研究   总被引:2,自引:0,他引:2  
CCD(the Chinese Concept Dictionary)是一个WordNet框架下的汉英双语语义知识库(the Chinese—English WordNet).在制定语义规范后,作者提出了构造CCD的演化模型(the model of evolution).新的构造模型强调双语语义知识库构造中的继承(inheritance)和转换(transformation)思想,希望从WordNet现有的英语单语语义信息出发,通过词典编纂者的联机翻译(online translations)和可视化操作(visualized operations).逐步实现由WordNet到CCD的计算性转换,自然地得到一个双语语义知识库,从而大幅度提高构造此类语义知识库的效率和质量.针对该构造模型,作者设计并实现了可视化的辅助词典构造软件VACOL.该软件在北大计算语言所CCD项目中得到大规模的应用,取得了很好的成果.  相似文献   

3.
英文文献主题概念的自动提取   总被引:2,自引:0,他引:2  
提出了一种基于概念的英文文献主题提取法,该方法的主要特点是运用义类词曲Wordnet作为知识库,分析词汇之间的概念关系。实验结果表明,这种方法提取的主题更接近于手工标引,并且由于使用统计方法,实现简单,速度较快。  相似文献   

4.
周由  戴牡红 《计算机科学》2013,40(Z11):267-269,300
在新闻项目的推荐系统中,通常使用TF-IDF权重技术结合余弦相似性度量方法,然而这种技术没有考虑到文字本身的实际语义,因此,提出了基于内容和语义分析相结合的一种新方法。此方法将同义词集合的逆文档频率及语义相似性相结合,采用WordNet同义词集合做相似性计算。构建用户配置文件进行实验测试,验证了该方法的有效性。实验结果表明,提出的语义方法性能优于TF-IDF方法。  相似文献   

5.
基于概念层次的英文文本自动分类研究   总被引:2,自引:0,他引:2  
该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。  相似文献   

6.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

7.
随着网络的发展,短文本语言计算的研究方兴未艾,且语义相似度在人工智能、认知学、语义学、心理学和生物学等领域里占有重要位置.在已有的传统的相似度研究算法上,为了能更快更准确地计算出相似度,文中通过构建概念树,设法把短文本集中到某个特定的领域.因概念树、概念词典既能表现概念之间的语义关系,又能表现概念层次结构,故而更能大大提高检索效率.在此基础上的相似度计算也使得检索结果更加准确,进而方便研究短文本之间的相似性与唯一性,大大增加了后期对挖掘的正确性.  相似文献   

8.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

9.
本体映射是解决本体异构的有效手段,而概念相似度计算是本体映射的关键环节。针对目前本体映射中概念相似度计算存在的问题,提出一种改进的多策略的概念相似度计算方法。首先根据两个概念的名称相似度进行初始映射判断,然后基于概念的属性、结构、实例计算概念相似度,并选取适当的权值进行加权综合。最后采用OAEI提供的标准数据测试集benchmark进行实验。实验结果表明,该方法在保证映射效率和通用性的同时,提高了映射结果的查全率和查准率。  相似文献   

10.
随着Web资源的日益丰富,人们需要跨语言的知识共享和信息检索。一个多语言Ontology可以用来刻画不同语言相关领域的知识,克服不同文化和不同语言带来的障碍。对现有的构建多语言Ontology方法进行分析和比较,提出一种基于核心概念集的多语言Ontology的构建方法,用一个独立于特定语言的Ontology以及来自不同自然语言的定义和词汇的同义词集来描述相关领域的概念。用该方法构建的Ontology具有良好的扩展能力、表达能力和推理能力,特别适合分布式环境下大型Ontology的创建。  相似文献   

11.
本体(Ontology)是共享概念模型的明确的形式化规范说明。本文首先介绍了斯坦福大学的半自动本体合并工具Prompt在本体概念匹配方面的缺点:忽略了概念的语义信息,无法识别同义词。对Thanh Dao提出的基于WordNet的概念语义相似度算法进行改进,并将其用于Prompt,弥补了其无法进行语义匹配的缺陷。  相似文献   

12.
We define WordNet based hierarchy concept tree (HCT) and hierarchy concept graph (HCG), HCT contains hyponym/hypernym kind of relation in WordNet while HCG has more meronym/holonym kind of edges than in HCT, and present an advanced concept vector model for generalizing standard representations of concept similarity in terms of WordNet-based HCT. In this model, each concept node in the hierarchical tree has ancestor and descendent concept nodes composing its relevancy nodes, thus a concept node is represented as a concept vector according to its relevancy nodes’ local density and the similarity of the two concepts is obtained by computing the cosine similarity of their vectors. In addition, the model is adjustable in terms of multiple descendent concept nodes. This paper also provides a method by which this concept vector may be applied with regard to HCG into HCT. With this model, semantic similarity and relatedness are computed based on HCT and HCG. The model contains structural information inherent to and hidden in the HCT and HCG. Our experiments showed that this model compares favorably to others and is flexible in that it can make comparisons between any two concepts in a WordNet-like structure without relying on any additional dictionary or corpus information.  相似文献   

13.
视觉词典容量是影响图像场景分类精度的重要因素之一,大容量的视觉词典因计算量较大影响了分类的效率,而小容量的视觉词典由于多义词问题的严重致使场景分类精度降低.针对该问题,提出一种基于概念格层次分析的视觉词典生成方法.首先生成关于训练图像视觉词包模型的初始视觉词典;然后在构造的概念格上利用概念格的概念层次性,通过动态地调整外延数阈值,获取粒度大小不同容量的描述图像各场景语义的约简视觉词典;最后对各类约简视觉单词构成向量进行异或,删除多义词,进而生成有效描述图像场景语义的视觉词典.实验结果表明,文中方法是有效的.  相似文献   

14.
计算思维是信息技术学科核心素养重要组成要素之一,新课标建立了信息技术“学科大概念”体系。本文提出了“概念类”教学的基本模式,从最基本的概念出发,构建整个学科理论系统。设计出有情景、有意义、有价值的问题,指导学生以计算思维的方式进行深入思考,帮助他们在分析问题和解决问题的过程中形成计算思维意识,提升计算思维能力。  相似文献   

15.
给出了概念格中关于后代和后继的一些性质,利用这些性质,提出了一种生成所有概念及其序关系的算法。对于任一形式概念,该算法能产生它的全部后代,并确认哪些后代为后继。为提高算法效率,采用了集合的精确匹配代替高代价的子集关系的检验。与现有算法相比,该算法的计算效率有显著的提高。  相似文献   

16.
中文实体关系抽取是开放域文本检索与知识发现的研究热点,传统的抽取策略普遍存在人工标注量大,模式通用性受限,关系抽取粒度相对固定等问题,限制了其在开放领域的关系抽取效果。基于概念的结构分层和关系连通,面向中文实体关系构建了谓词概念模型(predicate concept model,PCM),在此基础上,提出了增量学习的谓词概念获取策略PCIA和基于谓词概念连通的关系抽取策略PCCS,由此进行了开放域非紧密的、远距离实体关系的抽取。各谓词概念的构建相对独立,概念组合更为灵活,对关系的描述具有更好的通用性和可解释性,为开放域未知关系的识别与抽取提供了有效手段。实验结果表明,PCCS有效提升了中文实体识别及实体连通路径选择的质量,获得了良好的关系抽取性能。  相似文献   

17.
智慧来  李金海 《软件学报》2024,35(5):2466-2484
知识空间理论使用数学语言对学习者进行知识评价与学习指导, 属于数学心理学的研究范畴. 技能与问题是构成知识空间的两个基本要素, 深入研究两者之间的关系是知识状态刻画与知识结构分析的内在要求. 在当前的知识空间理论研究中, 没有明确建立技能与问题之间的双向映射, 从而难以提出直观概念意义下的知识结构分析模型, 也没有明确建立知识状态之间的偏序关系, 不利于刻画知识状态之间的差异, 更不利于规划学习者未来的学习路径. 此外, 现有的成果主要集中在经典的知识空间, 没有考虑实际问题中数据的不确定性. 为此, 将形式概念分析与模糊集引入知识空间理论, 建立面向知识结构分析的模糊概念格模型. 具体地, 分别建立知识空间与闭包空间的模糊概念格模型. 首先, 建立知识空间模糊概念格, 并通过任意两个概念的上确界证明所有概念的外延构成知识空间. 引入粒描述的思想定义技能诱导的问题原子粒, 由问题原子粒的组合判定一个问题组合是否是知识空间中的一个状态, 进而提出由问题组合获取知识空间模糊概念的方法. 其次, 建立闭包空间模糊概念格, 并通过任意两个概念的下确界证明所有概念的外延构成闭包空间. 类似地, 定义问题诱导的技能原子粒, 由技能原子粒的组合判定一个技能组合是否是闭包空间中某一知识状态所需的技能, 进而提出由技能组合获取闭包空间模糊概念的方法. 最后, 通过实验分析问题数量、技能数量、填充因子以及分析尺度对知识空间与闭包空间规模的影响. 结论表明知识空间模糊概念不同于现有的任何概念, 也不能从其他概念派生而来. 闭包空间模糊概念本质上是一种面向属性单边模糊概念. 在二值技能形式背景中, 知识空间与闭包空间中的状态具有一一对应关系, 但这种关系在模糊技能形式背景中并不成立.  相似文献   

18.
In machine translation, collocation dictionaries are important for selecting accurate target words. However, if the dictionary size is too large it can decrease the efficiency of translation. This paper presents a method to develop a compact collocation dictionary for transitive verb–object pairs in English–Korean machine translation without losing translation accuracy. We use WordNet to calculate the semantic distance between words, and k-nearestneighbor learning to select the translations. The entries in the dictionary are minimized to balance the trade-off between translation accuracy and time. We have performed several experiments on a selected set of verbs extracted from a raw corpus of over 3 million words. The results show that in real-time translation environments the size of a collocation dictionary can be reduced up to 40% of its original size without significant decrease in its accuracy.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号