首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
中文词语语义相似度计算——基于《知网》2000   总被引:8,自引:2,他引:8  
李峰  李芳 《中文信息学报》2007,21(3):99-105
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。  相似文献   

2.
语义相似度的计算是自然语言处理中的重要研究内容,在过去几十年的研究工作中,已有大量的语义相似度计算方法被提出并广泛应用于语义消歧、文本聚类等领域中。基于WordNet本体,改进了信息量IC计算模型,进而提出了两种混合式的语义相似度的计算方法。实验结果表明,由于同时考虑了概念节点在WordNet中的最短路径距离和IC语义距离,所提方法优于已有方法,其计算结果更加接近人类的主观判断。  相似文献   

3.
陈钊  李嘉 《计算机工程》2011,37(20):261-263
根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的文本层次识别规则,采用创建数据库和数据表匹配识别规则,给出识别规则匹配的正则表达式和文本内容截取识别规则,以抽取需要的特定事实信息,并以一种结构化的形式存储于数据库中。通过对实际林产品贸易网站的文本信息结构化抽取,证明该研究在林产品贸易信息推送中具有较好的应用价值。  相似文献   

4.
朱蓉 《计算机应用研究》2009,26(4):1234-1240
为了缩短介于低层视觉特征与高层语义特征之间的“语义鸿沟”距离,提出了急需解决的两大关键问题。首先按语义抽象程度给出了一种图像语义层次模型,着重分析与比较了四种语义信息提取方法的特点和存在问题;然后介绍了几种典型的语义特征相似性度量方法,阐述了目前图像理解应用的研究现状;最后搭建了图像语义理解框架,讨论了智能图像语义理解的未来研究趋势。  相似文献   

5.
研究网络信息搜索问题,提高搜索匹配的准确率。当前网络资源中,信息资源种类繁多,数量巨大,拥有相似特征的信息资源很多,传统的针对资源特征匹配的算法,很难在巨大数量的拥有众多相似特征的网络资源信息中,准确找到需要匹配的资源信息,信息匹配的准确性不高。为了解决这一问题,提出了一种基于语义距离的服务相似度信息匹配方法,首先将数据集用本体语言描述出来,然后对所定义的信息量、本体中的连接路径进行形式化定义,确定两个概念之间的语义距离,进而进行匹配。实验表明,新算法是能够实现海量数据之间匹配的最佳信息搜索方案,摆脱传统方法对于特征的依赖。大幅提高了匹配的准确度,取得了不错的效果。  相似文献   

6.
针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。  相似文献   

7.
在Web服务所提供的基本功能的基础上,应用语义注释的思想,给出一种对Web服务进行语义说明的方法。应用CIDOC CRM标准对Web数据规范进行注释,可为该规范加入语义信息,反映数据的含义,并揭示出数据之间的层次关系,从而使Web服务使用者更好地理解数据,并将所获取的数据准确地应用到数据处理中。  相似文献   

8.
王郁昕  李红豫 《计算机工程》2010,36(7):45-46,49
在Web服务所提供的基本功能的基础上,应用语义注释的思想,给出一种对Web服务进行语义说明的方法。应用CIDOCCRM标准对Web数据规范进行注释,可为该规范加入语义信息,反映数据的含义,并揭示出数据之间的层次关系,从而使web服务使用者更好地理解数据,并将所获取的数据准确地应用到数据处理中。  相似文献   

9.
Government data governance is undergoing a new phase of transition from ``physical data aggregation'' to ``logical semantic unification''. Thus far, long-term ``autonomy'' of government information silos, leads to a wide spectrum of metadata curation issues, such as attributes with the same names but having different meanings, or attributes with different names but having the same meanings. Instead of either rebuilding/modifying legacy information systems or physically aggregating data from government information silos, logical semantic unification solves this problem by unifying the semantic expression of the metadata in government information silos and achieves the standardized metadata governance. This paper focuses on the logical semantic unification that semantically aligns the metadata in each government information silo with the existing standard metadata. Specifically, the names of the standard metadata are abstracted as semantic labels, and the column projections of silo relational data are semantically recognized to semantically align column names with the standard metadata and ultimately achieve the standardized governance of silo metadata. The existing semantic recognition techniques based on column projection fail to capture the column order-independent features of relational data and the correlation features among attributes and semantic labels. To address the above problem, we propose a two-phase model based on a prediction phase and a correction phase. In the prediction phase, a Co-occurrence-Attribute-Interaction (CAI) model is proposed to guarantee the column order-independent property by employing the parallelized self-attention mechanism; in the correction phase, a correction mechanism is introduced to optimize the prediction results of the CAI model by utilizing the co-occurrence of semantic labels. Experiments are conducted on a government benchmark dataset and several public English datasets, such as Magellan, and the results show that the two-phase model with a correction mechanism outperforms the current optimal model in macro-average and weighted average by up to 20.03% and 13.36%, respectively.  相似文献   

10.

Text summarization presents several challenges such as considering semantic relationships among words, dealing with redundancy and information diversity issues. Seeking to overcome these problems, we propose in this paper a new graph-based Arabic summarization system that combines statistical and semantic analysis. The proposed approach utilizes ontology hierarchical structure and relations to provide a more accurate similarity measurement between terms in order to improve the quality of the summary. The proposed method is based on a two-dimensional graph model that makes uses statistical and semantic similarities. The statistical similarity is based on the content overlap between two sentences, while the semantic similarity is computed using the semantic information extracted from a lexical database whose use enables our system to apply reasoning by measuring semantic distance between real human concepts. The weighted ranking algorithm PageRank is performed on the graph to produce significant score for all document sentences. The score of each sentence is performed by adding other statistical features. In addition, we address redundancy and information diversity issues by using an adapted version of Maximal Marginal Relevance method. Experimental results on EASC and our own datasets showed the effectiveness of our proposed approach over existing summarization systems.

  相似文献   

11.
随着数字城市和智慧城市的建设发展,建筑信息模型(BIM)和地理信息系统(GIS) 的集成被广泛研究和应用。目前的集成研究主要是通用数据标准IFC 和CityGML 之间的空间和 语义转换,但由于应用领域和空间尺度等差异,存在信息错误和丢失、几何语义信息耦合度低、 应用拓展性差等问题。为此提出了一种兼顾三维实体对象和地理空间对象的三维城市数据模型, 研究了BIM 和GIS 的空间和语义数据的提取、处理和转换方法,设计了BIM 和三维GIS 的集 成应用框架并在三维可视化平台上进行验证和初步应用。该方法可实现BIM和GIS 信息在几何、 语义、精度上的完全融合,避免了传统的数据转换带来的信息缺失,在多尺度的空间和语义信 息分级存储和加载显示方面存在着优势,有利于实现大规模、高精度的建筑和城市信息的高效 集成。  相似文献   

12.
量化对象间相似性/差别的方法具有广泛的用途,利用相关的语义信息能够得到更好的量化结果.提出了一个量化对象间语义差别的距离函数X_Dist,它基于线性优化中的运输问题模型和相关的语义信息量化两个对象之间的差别.在量化特征的差别函数是度量(metric)的情况下,X_Dist是一个度量,在提高搜索的效率方面具有优势,弥补了以往研究的不足,而且实验初步表明,此函数在最近邻查询效果、差别分辨力和计算速度方面能与已有函数相媲美.  相似文献   

13.
Handling message semantics with Generic Broadcast protocols   总被引:1,自引:0,他引:1  
Summary. Message ordering is a fundamental abstraction in distributed systems. However, ordering guarantees are usually purely “syntactic,” that is, message “semantics” is not taken into consideration despite the fact that in several cases semantic information about messages could be exploited to avoid ordering messages unnecessarily. In this paper we define the Generic Broadcast problem, which orders messages only if needed, based on the semantics of the messages. The semantic information about messages is introduced by conflict relations. We show that Reliable Broadcast and Atomic Broadcast are special instances of Generic Broadcast. The paper also presents two algorithms that solve Generic Broadcast. Received: August 2000 / Accepted: August 2001  相似文献   

14.
Sentence and short-text semantic similarity measures are becoming an important part of many natural language processing tasks, such as text summarization and conversational agents. This paper presents SyMSS, a new method for computing short-text and sentence semantic similarity. The method is based on the notion that the meaning of a sentence is made up of not only the meanings of its individual words, but also the structural way the words are combined. Thus, SyMSS captures and combines syntactic and semantic information to compute the semantic similarity of two sentences. Semantic information is obtained from a lexical database. Syntactic information is obtained through a deep parsing process that finds the phrases in each sentence. With this information, the proposed method measures the semantic similarity between concepts that play the same syntactic role. Psychological plausibility is added to the method by using previous findings about how humans weight different syntactic roles when computing semantic similarity. The results show that SyMSS outperforms state-of-the-art methods in terms of rank correlation with human intuition, thus proving the importance of syntactic information in sentence semantic similarity computation.  相似文献   

15.
传输完整的CAD模型语义信息是协同设计有效进行的关键,提出了一种异构CAD系统语义信息交换方法,该方法通过构建语义转换器实现了常规文件、压缩文件和中性文件三种模型文件的数据转换和翻译,并给出了判定特征相似性的方法,实现了源CAD系统和目标CAD系统的语义互操作,保证了语义传输的完整性和高效性。构建了一个协同资源共享平台,在该平台下实现了Pro/E系统和UG系统之间的语义数据交换,协同传输效率提高了近30%。  相似文献   

16.
林泽琦  邹艳珍  赵俊峰  曹英魁  谢冰 《软件学报》2019,30(12):3714-3729
自然语言文本形式的文档是软件项目的重要组成部分.如何帮助开发者在大量文档中进行高效、准确的信息定位,是软件复用领域中的一个重要研究问题.提出了一种基于代码结构知识的软件文档语义搜索方法.该方法从软件项目的源代码中解析出代码结构图,并以此作为领域特定的知识来帮助机器理解自然语言文本的语义.这一语义信息与信息检索技术相结合,从而实现了对软件文档的语义检索.在StackOverflow问答文档数据集上的实验表明,与多种文本检索方法相比,该方法在平均准确率(mean average precision,简称MAP)上可以取得至少13.77%的提升.  相似文献   

17.
一种基于本体的概念相似度计算及其应用   总被引:2,自引:0,他引:2  
概念的语义相似度研究,是知识表示以及信息检索领域中的一个重要内容。本文提出了基于语义相似度和相关度的综合概念相似度计算方法,考虑了语义距离和本体库特征,加入概念的信息重合度、概念的深度、概念的密度和不对称因子的辅助影响。通过实验和两种传统的语义相似度计算方法进行对比,本方法能更好地区分本体树中不同关系的概念对,验证了该方法的有效性。  相似文献   

18.
贝叶斯网络检索模型可以表示术语间的条件概率和概念语义,并依此预测用户查询和文档间的相似度,是解决信息检索的有效手段。通过构造中文测试集合,对简单贝叶斯网络检索模型和扩展的贝叶斯网络检索模型的性能进行详细评估,实验证明扩展模型可以有效地提高检索性能,在一定程度上实现了基于语义的信息检索。  相似文献   

19.
已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用。基于此,该文提出一种融合图像注意力的多模态机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注意力权重中,从而进一步增强解码端隐含状态与源语言文本的对齐信息。在多模态机器翻译数据集Multi30k上英语—德语翻译对以及人工标注的印尼语—汉语翻译对上的实验结果表明,该文提出的模型相比已有的基于循环神经网络的多模态机器翻译模型效果具有较好的提升,证明了该模型的有效性。  相似文献   

20.
微博客消息中经常蕴含大量实时交通信息,有望与现有实时交通信息采集方式形成互补。该文针对微博客消息语义模糊性及用户描述差异性问题,提出了一种微博客消息蕴含交通信息的D-S证据理论提取方法。该方法首先构建微博客消息蕴含交通状态信息评价体系,利用百科知识提高评价精度,然后定义微博客消息源的基本概率分配函数,通过证据合成与证据决策,实现微博客消息蕴含实时交通信息的甄别与融合。实验结果表明,该方法能够对微博客消息蕴含实时交通信息的可信度进行有效判断,并能够在最大程度上利用不同微博客用户发布消息的信息内容,且较之传统的文本聚类融合方法具有更高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号