首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 812 毫秒
1.
中文词语语义相似度计算——基于《知网》2000   总被引:8,自引:2,他引:8  
李峰  李芳 《中文信息学报》2007,21(3):99-105
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。  相似文献   

2.
语义相似度的计算是自然语言处理中的重要研究内容,在过去几十年的研究工作中,已有大量的语义相似度计算方法被提出并广泛应用于语义消歧、文本聚类等领域中。基于WordNet本体,改进了信息量IC计算模型,进而提出了两种混合式的语义相似度的计算方法。实验结果表明,由于同时考虑了概念节点在WordNet中的最短路径距离和IC语义距离,所提方法优于已有方法,其计算结果更加接近人类的主观判断。  相似文献   

3.
朱蓉 《计算机应用研究》2009,26(4):1234-1240
为了缩短介于低层视觉特征与高层语义特征之间的“语义鸿沟”距离,提出了急需解决的两大关键问题。首先按语义抽象程度给出了一种图像语义层次模型,着重分析与比较了四种语义信息提取方法的特点和存在问题;然后介绍了几种典型的语义特征相似性度量方法,阐述了目前图像理解应用的研究现状;最后搭建了图像语义理解框架,讨论了智能图像语义理解的未来研究趋势。  相似文献   

4.
陈钊  李嘉 《计算机工程》2011,37(20):261-263
根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的文本层次识别规则,采用创建数据库和数据表匹配识别规则,给出识别规则匹配的正则表达式和文本内容截取识别规则,以抽取需要的特定事实信息,并以一种结构化的形式存储于数据库中。通过对实际林产品贸易网站的文本信息结构化抽取,证明该研究在林产品贸易信息推送中具有较好的应用价值。  相似文献   

5.
研究网络信息搜索问题,提高搜索匹配的准确率。当前网络资源中,信息资源种类繁多,数量巨大,拥有相似特征的信息资源很多,传统的针对资源特征匹配的算法,很难在巨大数量的拥有众多相似特征的网络资源信息中,准确找到需要匹配的资源信息,信息匹配的准确性不高。为了解决这一问题,提出了一种基于语义距离的服务相似度信息匹配方法,首先将数据集用本体语言描述出来,然后对所定义的信息量、本体中的连接路径进行形式化定义,确定两个概念之间的语义距离,进而进行匹配。实验表明,新算法是能够实现海量数据之间匹配的最佳信息搜索方案,摆脱传统方法对于特征的依赖。大幅提高了匹配的准确度,取得了不错的效果。  相似文献   

6.
针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。  相似文献   

7.
在Web服务所提供的基本功能的基础上,应用语义注释的思想,给出一种对Web服务进行语义说明的方法。应用CIDOC CRM标准对Web数据规范进行注释,可为该规范加入语义信息,反映数据的含义,并揭示出数据之间的层次关系,从而使Web服务使用者更好地理解数据,并将所获取的数据准确地应用到数据处理中。  相似文献   

8.
王郁昕  李红豫 《计算机工程》2010,36(7):45-46,49
在Web服务所提供的基本功能的基础上,应用语义注释的思想,给出一种对Web服务进行语义说明的方法。应用CIDOCCRM标准对Web数据规范进行注释,可为该规范加入语义信息,反映数据的含义,并揭示出数据之间的层次关系,从而使web服务使用者更好地理解数据,并将所获取的数据准确地应用到数据处理中。  相似文献   

9.
Government data governance is undergoing a new phase of transition from ``physical data aggregation'' to ``logical semantic unification''. Thus far, long-term ``autonomy'' of government information silos, leads to a wide spectrum of metadata curation issues, such as attributes with the same names but having different meanings, or attributes with different names but having the same meanings. Instead of either rebuilding/modifying legacy information systems or physically aggregating data from government information silos, logical semantic unification solves this problem by unifying the semantic expression of the metadata in government information silos and achieves the standardized metadata governance. This paper focuses on the logical semantic unification that semantically aligns the metadata in each government information silo with the existing standard metadata. Specifically, the names of the standard metadata are abstracted as semantic labels, and the column projections of silo relational data are semantically recognized to semantically align column names with the standard metadata and ultimately achieve the standardized governance of silo metadata. The existing semantic recognition techniques based on column projection fail to capture the column order-independent features of relational data and the correlation features among attributes and semantic labels. To address the above problem, we propose a two-phase model based on a prediction phase and a correction phase. In the prediction phase, a Co-occurrence-Attribute-Interaction (CAI) model is proposed to guarantee the column order-independent property by employing the parallelized self-attention mechanism; in the correction phase, a correction mechanism is introduced to optimize the prediction results of the CAI model by utilizing the co-occurrence of semantic labels. Experiments are conducted on a government benchmark dataset and several public English datasets, such as Magellan, and the results show that the two-phase model with a correction mechanism outperforms the current optimal model in macro-average and weighted average by up to 20.03% and 13.36%, respectively.  相似文献   

10.

Text summarization presents several challenges such as considering semantic relationships among words, dealing with redundancy and information diversity issues. Seeking to overcome these problems, we propose in this paper a new graph-based Arabic summarization system that combines statistical and semantic analysis. The proposed approach utilizes ontology hierarchical structure and relations to provide a more accurate similarity measurement between terms in order to improve the quality of the summary. The proposed method is based on a two-dimensional graph model that makes uses statistical and semantic similarities. The statistical similarity is based on the content overlap between two sentences, while the semantic similarity is computed using the semantic information extracted from a lexical database whose use enables our system to apply reasoning by measuring semantic distance between real human concepts. The weighted ranking algorithm PageRank is performed on the graph to produce significant score for all document sentences. The score of each sentence is performed by adding other statistical features. In addition, we address redundancy and information diversity issues by using an adapted version of Maximal Marginal Relevance method. Experimental results on EASC and our own datasets showed the effectiveness of our proposed approach over existing summarization systems.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号