首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
指代消解是自然语言处理领域中的一个重要问题。本文引入图对汉语名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并应用关联聚类算法来实现对图的自动划分。相对于传统的link-first和link-best聚类机制,该方法并不是孤立地针对每一对名词短语分别进行共指决策,而是充分考虑了多个名词短语之间的相关性,且不需事先给出聚类的数量以及距离闻值。通过在ACE中文语料上名词短语消解的实验结果表明,该方法是一个有效的指代消解算法。  相似文献   

2.
词共现文本主题聚类算法   总被引:1,自引:0,他引:1  
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果.  相似文献   

3.
K-Hub聚类算法是一种有效的高维数据聚类算法,但是它对初始聚类中心的选择非常敏感,并且对于靠近类边界的实例往往不能正确聚类.为了解决这些问题,提出一种结合主动学习和半监督聚类的K-Hub聚类算法.运用主动学习策略学习部分实例的关联限制,然后利用这些关联限制指导K-Hub的聚类过程.实验结果表明,基于主动学习的K-Hub聚类算法能有效提升K-Hub的聚类准确率.  相似文献   

4.
一种基于图划分的无监督汉语指代消解算法   总被引:4,自引:2,他引:4  
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。  相似文献   

5.
该文针对中文共指消解的具体任务,提出采用谱聚类的方法进行共指消解。首先,在待消解项对上抽取特征,使用最大熵模型判断两个待消解项存在共指关系的概率;然后,以此概率值作为相似度进行谱聚类;最后,得到若干实体,实现共指消解。该方法能从全局的角度进行实体划分,有效地提高准确率。在ACE 2007标准数据集上的Diagnostic实验结果表明该方法的ACE Value比baseline方法有了2.5%的提高,Unweighted Precision值有5.4%的提高。  相似文献   

6.
本文针对中文共指消解的具体任务,提出采用谱聚类的方法进行共指消解。首先,在待消解项对上抽取特征,使用最大熵模型判断两个待消解项存在共指关系的概率;然后,以此概率值作为相似度进行谱聚类;最后,得到若干实体,实现共指消解。该方法能从全局的角度进行实体划分,有效的提高准确率。在ACE2007标准数据集上的Diagnostic实验结果表明该方法的ACE Value比baseline方法有了2.5%的提高,Unweighted Precision值有5.4%的提高。  相似文献   

7.
目前的聚类方法单纯从某个角度研究数据聚类问题,对基于云模式的混沌的物联网大数据聚类的考虑不足,聚类质量不高。为实现敏捷、智能、平稳的物联网大数据聚类,基于开展物联网事件的云模式通用描述模型、物联网事件混沌关联特征的云模式通用解析模型、基于云模式的物联网事件混沌关联特征提取算法、基于云模式混沌关联特征的物联网大数据关联挖掘研究,改进分解奇异值算法、网格耦合聚类算法、K-means算法、决策树学习法、分析主成分法、分层合并法等算法和分布概率函数,设计了一种基于事件混沌关联特征、敏捷、智能、平稳的物联网大数据聚类算法。最后,开展实验验证,并与传统算法进行性能对比分析。实验结果表明,相比传统算法,该算法聚类时间短、误差小,且敏捷性、智能性、动态演化性和平稳性高。因此,该算法实现了基于云模式的具有混沌关联特征的物联网事件大数据的有效聚类,具有较高的应用价值。  相似文献   

8.
一种基于贪心EM算法学习GMM的聚类算法   总被引:2,自引:0,他引:2  
传统的聚类算法如k-means算法需要一些先验知识来确定初始参数,初始参数的选择通常会对聚类结果生产很大的影响.提出一种新的基于模型的聚类算法,通过优化给定的数据和数学模型之间的适应性发现数据对模型的最好匹配.由于高斯混合模型可以看作是一种"软分配聚类"方法,该算法结合一种贪心的EM算法来学习高斯混合模型(GMM),由贪心EM算法实现高斯混合模型结构和参数的自动学习,而不需要先验知识.这种聚类算法可以克服k-means等算法的缺点,实验结果表明该算法具有更好的聚类效果.  相似文献   

9.
提出了一种基于品类聚类的关联规则优化算法.该算法首先根据文中定义的品类特征向量,用结构化的数据来表示事务;然后根据一种基于密度的聚类算法,对结构化的数据进行聚类,同时将对应的原始事务进行聚类;最后根据聚类后得到的类的长度以及用户指定的最小支持度,确定类内的最小支持度,在类内挖掘关联规则.实验结果表明,与传统算法相比,该算法效率较高,具有一定的实用价值.  相似文献   

10.
针对传统聚类融合算法不能消除劣质聚类成员的干扰,以及聚类准确性不高等问题,提出一种基于分形维数的选择性聚类融合算法.该算法实现增量式聚类,能够发现任意形状的聚类.通过基于互信息计算权值的选择策略,选取部分优质聚类成员,再利用加权共协矩阵实现融合,获得最终的聚类结果.实验证明,与传统聚类融合算法相比,该算法提高了聚类质量,具有较好的扩展性.  相似文献   

11.
共指消解是自然语言处理的核心问题之一。本文针对分步消解中分类器全局信息的不足,依据分类信心对全体提及配对进行排序,优先根据可靠的分类结果对提及进行聚集或分离。实验表明,该算法在多个学习框架下显著地改善了系统的整体性能。  相似文献   

12.
Knowledge of noun phrase anaphoricity might be profitably exploited in coreference resolution to bypass the resolution of non-anaphoric noun phrases.However,it is surprising to notice that recent attempts to incorporate automatically acquired anaphoricity information into coreference resolution systems have been far from expectation.This paper proposes a global learning method in determining the anaphoricity of noun phrases via a label propagation algorithm to improve learning-based coreference resolutio...  相似文献   

13.
指代消解研究现状综述   总被引:1,自引:0,他引:1  
指代消解是自然语言处理的一项关键环节,也是信息抽取的核心任务之一。针对指代消解的一些基本问题进行阐述,主要介绍利用机器学习的方法开展的共指消解相关研究,从共指消解模型、常见算法、语料库、特征、评测标准等方面概述相关工作。  相似文献   

14.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。  相似文献   

15.
针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.  相似文献   

16.
已有的中文指代消解系统研究大多是基于有监督的机器学习方法,训练集中正负例的比值直接影响到分类器模型,进而影响指代消解结果。针对如何选取训练集正负例比值的问题,实现了一个中文指代消解系统,提出了训练数据正负例比值与指代消解系统评测结果之间的数学模型,并引入一种改进的遗传算法计算训练数据最优比值,使系统评测结果最优。在ACE 2005中文语料上的实验表明,改进的遗传算法更适合指代消解任务,适当增大负例的比值能够提高指代消解系统的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号