首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
王刚  钟国祥 《计算机科学》2010,37(9):222-224
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Based on Ontology).该算法把文档用本体来刻画,以便描述概念的内涵及概念间的联系.设计和改进了文本相似度计算算法,应用本体的语义相似度来度量文档间相近程度,设计了具体的根据相似度进行文本聚类的算法.实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量.  相似文献   

2.
基于本体及相似度的文本聚类研究*   总被引:1,自引:0,他引:1  
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(text clustering based on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方  相似文献   

3.
为了解决传统文本过滤以联,提出了一种基于概念格的文本过滤模型.在以传统的向量空问模型对文本进行表示的基础上,将文本与文本特征之间的关系以概念格的形式加以表示.设计了基于领域本体的概念相似度的计算方法,以概念相似度对概念之间的关联进行衡量.利用了概念格中的层次关系,设计了一个基于概念格的匹配过滤算法.实验结果表明,该模型...  相似文献   

4.
刘一松  杨玉成 《计算机科学》2013,40(11):211-214
语义Web服务在进行服务发现时,需要按顺序依次匹配注册库中的服务,这将大量时间浪费在不相干的服务上,从而造成服务发现效率低下。针对该问题,提出了一种新的基于文本聚类和概念相似度的语义Web服务发现方法。该方法主要分为两个阶段,第一阶段根据服务源文件中的描述性文本信息将类别一致的服务聚类到一起,在此过程中利用了向量空间模型对文本进行表示和处理,并在前人的基础上提出了一种多重混合聚类算法MHC;第二阶段进行服务间的功能属性匹配,结合本体概念层次树中有向边的深度、强度以及概念的继承度等因素计算概念间的语义相似度。最后,实验结果表明,提出的方法在兼顾匹配准确率的基础上,大大提高了匹配效率。  相似文献   

5.
本体可以提供强大的知识表示方法,是信息检索领域中的重要内容。传统的本体概念相似度计算方法大多采用特定于描述语言的通用推理服务来进行匹配,这些方法忽略了概念的语义信息。通过设计一个基于OWL本体的语义检索模型,介绍了如何通过概念的属性以及层次关系来表达概念的语义,计算概念间的柔性相似度。实验结果表明,该方法能充分利用OWL属性特征与层次关系来计算相关概念之间的柔性相似度,可以根据需要动态地调节匹配范围,并给出其在文本分类中的应用。  相似文献   

6.
一种基于GN算法的文本概念聚类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
文本聚类是当前文本信息挖掘的基础和研究的重点。给出一种新的文本聚类方法,它将概念格和复杂网络有机地结合起来,以达到更优的聚类效果。首先计算关键词特征权值并对特征向量进行降维处理,然后根据关键词权值大小映射到形式背景中,通过本文所给出的新的相似度公式,计算出形式背景中概念相似度的大小,从而构造GN网络并应用GN算法进行文本概念聚类。最后通过实例,验证了方法的可行性。  相似文献   

7.
基于领域本体综合考虑属性、语义距离、层次深度和调节因子等多种因素对词语相似度的影响,提出计算词语相似度的方法.实验证明,该方法充分利用了领域本体中概念的层次关系和属性特点,并把它们结合起来,利用词语之间的相似度对文本的向量空间模型进行扩展,达到了较好的文本分类效果.  相似文献   

8.
文本聚类是聚类的一个重要的研究分支,是聚类方法在自然语言处理领域的具体应用.研究表明事件在大量的文本中是客观存在的,诸多文本是由事件组成的,事件是文本表示的最小语义单位.探讨了以事件为特征的文本聚类方法,首先给出了基于事件的文本概念格表示模型,在此模型的基础上,给出了文本相似度的计算方法.最后,使用K-means聚类算法对所提方法进行了实验验证.  相似文献   

9.
文本聚类是文本挖掘的一种重要方法.基于形式概念分析和概念相似度,给出一种新的多背景文本模糊聚类方法和模型.该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵. 可根据不同要求得到相应的聚类结果,具有较好的灵活性.最后通过示例说明了所给算法的可行性.  相似文献   

10.
为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度。然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度。实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断。  相似文献   

11.
Upper-level ontologies comprise general concepts and properties which need to be extended to include more diverse and specific domain vocabularies. We present the extension of NASA's Semantic Web for Earth and Environmental Terminology (SWEET) ontologies to include part of the hydrogeology domain. We describe a methodology that can be followed by other allied domain experts who intend to adopt the SWEET ontologies in their own discipline. We have maintained the modular design of the SWEET ontologies for maximum extensibility and reusability of our ontology in other fields, to ensure inter-disciplinary knowledge reuse, management, and discovery.The extension of the SWEET ontologies involved identification of the general SWEET concepts (classes) to serve as the super-class of the domain concepts. This was followed by establishing the special inter-relationships between domain concepts (e.g., equivalence for vadose zone and unsaturated zone), and identifying the dependent concepts such as physical properties and units, and their relationship to external concepts. Ontology editing tools such as SWOOP and Protégé were used to analyze and visualize the structure of the existing OWL files. Domain concepts were introduced either as standalone new classes or as subclasses of existing SWEET ontologies. This involved changing the relationships (properties) and/or adding new relationships based on domain theories. In places, in the Owl files, the entire structure of the existing concepts needed to be changed to represent the domain concept more meaningfully. Throughout this process, the orthogonal structure of SWEET ontologies was maintained and the consistency of the concepts was tested using the Racer reasoner. Individuals were added to the new concepts to test the modified ontologies. Our work shows that SWEET ontologies can successfully be extended and reused in any field without losing their modular or reference structure, or disrupting their URI links.  相似文献   

12.
科学文献的模糊聚类算法   总被引:8,自引:0,他引:8  
林春燕  朱东华 《计算机应用》2004,24(11):66-67,70
针对科学文献的特点,以及人们在查询资料时主要使用关键词来进行查询的特征,提出了一种新的聚类方法。先对关键词进行聚类,由关键词的聚类结果直接映射得到文献的初始聚类,再根据文献的隶属度获得优化的聚类集。  相似文献   

13.
在负载自适应数据库系统中,负载特征化部件是关键部分,首先要对负载分类,然后根据分类的情况预测负载性能。负载的分类一般采用聚类算法,聚类算法中比较典型的就是K—means算法。但在K—means算法中,k值必须提前设定而且不能根据负载的实际情况改变,就是对算法的一个改进,使得k值动态的、能够根据负载的实际情况改变。实验结果表明,使用该算法的分类结果预测负载运行时间的准确性有明显提高。  相似文献   

14.
根据智能教学系统的特点,在分析现有智能教学系统特点的基础上,提出一种面向语义Web的智能教学系统模型,分析系统各组成部分的功能。在系统模型中引入领域本体组织教学内容,并运用网络爬虫工具获取网页新知识更新教学内容,以提高系统的适应性,取得良好的效果。  相似文献   

15.
The detection of topics from large textual data volumes is currently a research area, which has many applications in the development of computational systems. A proposed solution for the detection of topics in data mining is the application of clustering methods. This paper presents the application of a new ontology‐based methodology for the automatic topic detection without any previous information based on the use of hierarchical clustering algorithms and a multilingual knowledge base. The approach also includes lexical resources that allow us to enrich the semantics of the analyzed texts. The novelty of this approach consists of the dimensionality reduction of the terms present in the texts by using ontology and the introduction of a method for the creation of a term weight matrix for use in clustering algorithms. With this approach, it is possible to improve automatic topic detection in documents. The proposed methodology was assessed with four datasets (two of them in English and two in Spanish).  相似文献   

16.
DOMAIN-INDEPENDENT TEMPORAL REASONING WITH RECURRING EVENTS   总被引:1,自引:0,他引:1  
Numerous examples of temporal reasoning involve a process of abstraction from the number of times an event is to occur or the number of times events stand in a temporal relation. For example, scheduling a recurring event such as one's office hours may consider things like the relative temporal ordering of the office hours and a number of other events in a given work day. The number of times office hours will actually be held may be unknown, even irrelevant, at the time of scheduling them. The objective of this article is to formulate a domain-independent framework for reasoning about recurring events and their relations. To achieve this end, we propose an ontology of recurrence based on the model-theoretic structure underlying collective predication using plural noun phrases. We offer a calculus of binary temporal relations for temporal collections based on a well-defined transformation of interval temporal relations into recurrence relations. Finally, we describe a reasoning framework based on manipulating knowledge stored in temporal relation networks, which is in turn a specialization of the CSP (constraint satisfaction problem) framework. The reasoner manipulates recurrence relations in the network to determine the network's consistency or to generate scenarios.  相似文献   

17.
利用本体和主题词表的集成构造RDF模式   总被引:2,自引:0,他引:2  
张哲 《微机发展》2004,14(3):87-92
为了减少语义异构性带来的信息发现、集成和存取的困难,论述了语义元数据构造,提出了通过集成现存的本体和主题词表构造元数据模式的一种新方法,即元数据模式构造的两步方法:在主题词T和本体O之间的连接关系规范;概念主题词表的自动构造。这个集成基于主题词术语和本体概念之间的蕴含关系规范,并产生具体应用的元数据模式,同时也给出利用结果元数据模式构造RDF模式的过程。  相似文献   

18.
Distributed software development has become an option for software companies to expand their horizons and work with geographically dispersed teams, exploiting the advantages brought by this approach. However, this way of developing software enables new challenges to arise, such as the inexistence of a formal, normalized model of a project's data and artifacts accessible to all the individuals involved, which makes it harder for them to communicate, understand each other and what is specified on the project's artifacts. With what being said, this paper proposes a knowledge management tool that utilizes a domain-specific ontology for distributed development environments, aiming to help distributed teams overcome the challenges brought by this modality of software development proposing techniques and best practices. Thus, the main output of this work is ontology-based system to support the software development process with distributed teams.  相似文献   

19.
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(down-stream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author & reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling 方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。  相似文献   

20.
基于复杂网络社团划分的Web services聚类*   总被引:1,自引:0,他引:1  
以单词为网络节点,由自然语言描述中单词的同现频率确定单词间的相关度并作为边的权值,构建自然语言描述集合的加权单词网络模型。利用Newman快速算法对加权单词网络模型进行社团划分,得到单词聚类结果;根据单词聚类结果与服务之间的映射关系实现服务聚类。实验结果与手工分类结果的对比表明,平均查准率达74.7%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号