首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于搭配对的汉语形容词—名词聚类   总被引:4,自引:1,他引:4  
本文提出了一个双向分级聚类的算法同时对不同词性的词进行聚类。在聚类过程中,不同词性的词的聚类交替进行,相互影响。我们以最小描述长度的原理为基础构造了目标函数。为了减小数据稀疏的影响,又提出了修饰度的与修正距离的概念。将此算法应用于汉语形容词- 名词的搭配对,对形容词与名词进行聚类,实验结果显示该算法是有效的。  相似文献   

2.
指代消解是自然语言处理领域中的一个重要问题。本文引入图对汉语名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并应用关联聚类算法来实现对图的自动划分。相对于传统的link-first和link-best聚类机制,该方法并不是孤立地针对每一对名词短语分别进行共指决策,而是充分考虑了多个名词短语之间的相关性,且不需事先给出聚类的数量以及距离闻值。通过在ACE中文语料上名词短语消解的实验结果表明,该方法是一个有效的指代消解算法。  相似文献   

3.
不同词性特征在文本聚类中有不同的贡献度。该文对四组有代表性的中英文数据集,利用三种聚类算法验证了四种主要词性及其组合对中英文文本聚类的影响。实验结果表明,在中文和英文两种语言中,名词均是表征文本内容的最重要词性,动词、形容词和副词均对文本聚类结果有帮助,仅选择名词作为特征聚类的结果与保留所有词性聚类的结果相近,但可大大降低文本的维度;选用名词为文本特征不能实现最好的聚类效果;相对其他词性组合和单一词性,采用名词、动词、形容词和副词的组合特征往往可以实现更好的聚类效果。在词性所占的比例以及单一词性聚类的结果上,同一词性在中英文文本聚类中呈现出较大差异。相对于英文,不同词性特征及其组合在中文文本聚类中呈现的差异更为稳定。  相似文献   

4.
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。  相似文献   

5.
数据聚类的可视分析方法利用可视化与交互技术帮助用户对聚类过程与结果进行 多角度分析,从而发现数据内部隐藏的结构和关系。但由于高维数据自身的“维度诅咒”问题 使得聚类分析面临着许多挑战,例如模型参数设定、数据特征捕捉、结果解释以及可视化展现 等。本文从高维数据聚类过程中遇到的问题出发,首先总结了高维数据聚类过程中常用的数据 处理方法并对其性能进行了比较,这些方法能够较好地解决“维度诅咒”问题,帮助用户挖掘 数据中存在的聚类模式。在分析和理解不同聚类结果中包含的数据内部结构和规律时,由于前 期采取的数据处理方法不同,因此需要采取不同的探索分析策略,所以本文将近10 年来高维数 据聚类的可视分析方法分为2 大类进行总结,即基于降维的聚类可视分析方法和基于子空间聚 类的可视分析方法。最后对该领域目前存在的机遇与挑战进行了讨论。  相似文献   

6.
案例聚类是按照案例库中案例的相似度进行归类,目的是减少案例推理系统搜索相似案例的时间、提高案例推理系统的性能和降低案例库维护的复杂度。该问题的难度在于案例库的案例规模比较大和不同的聚类算法的选择对于聚类结果的影响。本文在粒子群算法与细菌觅食算法基础上,将两者结合起来,综合两个算法的优点,并将其应用在k-prototypes方法上对案例库中案例进行聚类。与流行的聚类算法进行比较,实验结果显示本文的算法具有更高的效率并且性能相对而言更加优秀。  相似文献   

7.
现有的数据流聚类算法无法处理高维混合属性的数据流。针对该问题,对HPStream算法的脱机聚类和联机聚类过程进行改进,利用频度矩阵处理名词属性,通过基于信息熵的名词属性选择方法降低数据维度。实验结果表明,该算法能有效处理混合属性和维度较高的数据集,与HPStream算法相比,聚类精度有5%~15%的提高。  相似文献   

8.
介绍了自然语言处理系统中事件类名词耦合的一种处理方法。事件类名词是汉语名词的一个特殊子类,这类名词兼事物性与动作性于一身。给出了事件类名词的语义认知基础,并采用基于知识的方法,应用概念从属理论,对事件类名词进行详细的语义分析。在此基础上,对事件类名词的耦合情况进行分类,并给出了事件名词解耦处理的具体方法。这种对事件类名词的耦合处理方法在智能辅导领域中得到了较好的应用。  相似文献   

9.
特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词特征的聚类方法,实验表明该方法是直接的和有效的,并为特征选择方法提供了新思路。  相似文献   

10.
介绍了自然语言处理系统中事件类名词耦合的一种处理方法.事件类名词是汉语名词的一个特殊子类,这类名词兼事物性与动作性于一身.给出了事件类名词的语义认知基础,并采用基于知识的方法,应用概念从属理论,对事件类名词进行详细的语义分析.在此基础上,对事件类名词的耦合情况进行分类,并给出了事件名词解耦处理的具体方法.这种对事件类名词的耦合处理方法在智能辅导领域中得到了较好的应用.  相似文献   

11.
基于文化算法的聚类分析   总被引:7,自引:0,他引:7  
刘纯青  杨莘元  张颖 《计算机应用》2006,26(12):2953-2955
分析了K-均值聚类算法所存在的不足,提出了基于文化算法的新聚类算法,并给出该算法的两个实现版本:CA-version1利用规范知识调整变量变化步长,形势知识调整其变化方向;CA-version2利用规范知识调整变量变化步长及变化方向。文化算法所具有的双层结构特性,使其在问题求解过程中能够利用经验知识来指导搜索过程,从而具有较好的全局寻优性能。仿真实验亦表明,两个版本的文化算法均能有效地克服传统的K-均值算法的缺点,而且全局收敛性能优于基于遗传算法的K-均值聚类算法,同时还可以看出第二个版本的文化算法更适于求解聚类问题。  相似文献   

12.
Clustering provides a knowledge acquisition method for intelligent systems. This paper proposes a novel data-clustering algorithm, by combining a new initialization technique, K-means algorithm and a new gradual data transformation approach to provide more accurate clustering results than the K-means algorithm and its variants by increasing the clusters’ coherence. The proposed data transformation approach solves the problem of generating empty clusters, which frequently occurs for other clustering algorithms. An efficient method based on the principal component transformation and a modified silhouette algorithm is also proposed in this paper to determine the number of clusters. Several different data sets are used to evaluate the efficacy of the proposed method to deal with the empty cluster generation problem and its accuracy and computational performance in comparison with other K-means based initialization techniques and clustering methods. The developed estimation method for determining the number of clusters is also evaluated and compared with other estimation algorithms. Significances of the proposed method include addressing the limitations of the K-means based clustering and improving the accuracy of clustering as an important method in the field of data mining and expert systems. Application of the proposed method for the knowledge acquisition in time series data such as wind, solar, electric load and stock market provides a pre-processing tool to select the most appropriate data to feed in neural networks or other estimators in use for forecasting such time series. In addition, utilization of the knowledge discovered by the proposed K-means clustering to develop rule based expert systems is one of the main impacts of the proposed method.  相似文献   

13.
Picture fuzzy set (PFS), which is a generalization of traditional fuzzy set and intuitionistic fuzzy set, shows great promises of better adaptation to many practical problems in pattern recognition, artificial life, robotic, expert and knowledge-based systems than existing types of fuzzy sets. An emerging research trend in PFS is development of clustering algorithms which can exploit and investigate hidden knowledge from a mass of datasets. Distance measure is one of the most important tools in clustering that determine the degree of relationship between two objects. In this paper, we propose a generalized picture distance measure and integrate it to a novel hierarchical picture fuzzy clustering method called Hierarchical Picture Clustering (HPC). Experimental results show that the clustering quality of the proposed algorithm is better than those of the relevant ones.  相似文献   

14.
数据挖掘方法在网络入侵检测中的应用   总被引:2,自引:0,他引:2  
传统的入侵检测系统存在适应性差、缺乏可扩展性、需要专家手工编码等缺陷.基于数据挖掘的入侵检测技术,自动地从训练数据中提取出入侵检测的知识和模式,能够很好地解决传统入侵检测系统中存在的问题.综述了数据挖掘技术在网络入侵检测中的应用,描述了基于数据挖掘的入侵检测系统架构,阐述了聚类分析、分类分析、关联规则分析和序列模式分析在网络入侵检测中的应用原理和最新的研究与改进,并指出了目前存在的问题和未来研究的方向.  相似文献   

15.
Data clustering is an important and frequently used unsupervised learning method. Recent research has demonstrated that incorporating instance-level background information to traditional clustering algorithms can increase the clustering performance. In this paper, we extend traditional clustering by introducing additional prior knowledge such as the size of each cluster. We propose a heuristic algorithm to transform size constrained clustering problems into integer linear programming problems. Experiments on both synthetic and UCI datasets demonstrate that our proposed approach can utilize cluster size constraints and lead to the improvement of clustering accuracy.  相似文献   

16.
Allocation of production rules among several partitions in a knowledge base can shorten the compilation and execution of expert systems applications and facilitate their verification, validation and maintenance. The problem of allocation of rules or groups of rules among partitions of limited size while minimizing the sum of inter-partition connections is formulated as a 0–1 integer programming problem with a quadratic objective function. Since this type of problems is NP-complete, a clustering algorithm based on the nearest neighbor heuristic is proposed.  相似文献   

17.
邓小燕 《控制工程》2020,(1):182-187
在处理属性值为犹豫模糊信息的聚类分析问题过程中,一般性的犹豫模糊聚类算法在样本空间层面处理过程中存在消耗时间长、距离结果不精确等不足。为了解决这一问题,建立了一种新颖的犹豫模糊聚类算法,即犹豫模糊核C-均值聚类算法,该算法运用核函数将样本空间中的数据映射到一个高维特征空间。结果显示,通过提出的犹豫模糊核C-均值聚类算法能够扩大不同样本之间的差异,并且使得聚类结果更加准确。最后,通过数据库系统选择的仿真实验,验证了所提出的犹豫模糊核C-均值聚类算法的可行性和有效性。  相似文献   

18.
The multimodel approach was recently developed to deal with the issues of complex systems modeling and control. Despite its success in different fields, it is still faced with several design problems, in particular the determination of the number and parameters of the different models representative of the system as well as the choice of the adequate method of validities computation used for multimodel output deduction.In this paper, a new approach for complex systems modeling based on both neural and fuzzy clustering algorithms is proposed, which aims to derive different models describing the system in the whole operating domain. The implementation of this approach requires two main steps. The first step consists in determining the structure of the model-base. For this, the number of models must be firstly worked out by using a neural network and a Rival Penalized Competitive Learning (RPCL). The different operating clusters are then selected referring to two different clustering algorithms (K-means and fuzzy K-means). The second step is a parametric identification of the different models in the base by using the clustering results for model orders and parameters estimation. This step is ended in a validation procedure which aims to confirm the efficiency of the proposed modeling by using the adequate method of validity computation. The proposed approach is implemented and tested with two nonlinear systems. The obtained results turn out to be satisfactory and show a good precision, which is strongly related to the dispersion of the data and the related clustering method.  相似文献   

19.
20.
在社会化标记系统中,常采用聚类等数据挖掘技术来解决标签冗余和语意模糊的问题.现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类的精确度与召回率并不高.针对此问题,提出一种新的标签聚类算法,充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签,根据余弦相似度公式得到较为准确的标签相似度,然后采用K-Means算法将用户标签进行聚类.实验结果表明该算法能够得到更加精确的聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号