首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于特征关联度的K-means初始聚类中心优化算法   总被引:3,自引:0,他引:3  
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法.由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用“或运算”合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合“最小最大”原则从候选集中选取最优的初始中心.在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果.  相似文献   

2.
由于传统褒贬二值分类模型缺乏对文本主题之间以及主题与观点持有者之间的关系挖掘,不能很好的处理具有不规则、口语化、极性强等特点的评论文本.通过提取网站的文本评论,对评论对象进行结构化处理,以How Net公布的情感词典为基础,完善了评论情感倾向性词典.结合五元组模型量化文本情感信息,建立了适合处理评论文本的模型,深度挖掘了用户对商品或消费行为的主观感受.并通过实验验证了该模型的准确度和有效性.  相似文献   

3.
采用条件随机场(CRFs)算法,以商品属性为中心,挖掘出消费者对商品的情感观点以及观点态度的强弱。通过对商品评论进行标注学习,实现了商品属性和相应的评价词的自动抽取,从而识别出评论文本中的关键信息。研究中抽取的三个维度的关键信息包括商品特征属性,与之相关的评论情感观点,以及情感程度的强弱。仿真实验表明,借助词本身和词性特征,以及上下词的位置关系特征,CRFs算法对商品评论信息抽取有着较高的查准率和召回率。  相似文献   

4.
主题分析技术在文档聚类中的应用   总被引:1,自引:0,他引:1  
为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.  相似文献   

5.
针对互联网热点信息发现的需求,提出一种基于先分类再聚类的互联网信息热点发现及分析系统构建方法.通过对互联网样本信息文本的特征提取,构建文本向量空间模型,使用Maxent最大熵分类模型对文本进行分类,对分类结果使用OPTICS聚类算法获取文本热点簇,最终获取有效热点信息.实验证明,通过先分类再聚类的方法可以有效避免语义类别不同但字面意义混淆的文章对聚类算法的影响,有效提高聚类结果的精度和运算效率.  相似文献   

6.
从语义角度,对手机类产品的用户评论进行研究。通过对用户评论进行文本预处理、特征项权重计算、特征项编码和聚类等一系列处理,尝试挖掘出这些评论所包含的维度,为商家和潜在用户提供更精确、更有针对性的评论参考。  相似文献   

7.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

8.
针对谱聚类算法相似度函数设置困难问题,提出了一种使用证据累积的文本聚类谱算法.该算法使用超球K均值算法对文本集进行多次聚类,并将每次得到的划分结果作为判断2个文本是否应该放在一个簇中的证据,由此构建文本的相似度矩阵和正则化拉普拉斯矩阵.在TREC和Reuters文本集上进行了实验,验证了本文算法的有效性,它比层次聚类算法和CLUTO提供的K均值算法更加优越.  相似文献   

9.
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.  相似文献   

10.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

11.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

12.
针对现有聚类集成谱算法聚类结果不稳定的问题,引入近邻传播聚类思想,设计了基于近邻传播的聚类集成谱算法(APCESA).该算法先由聚类集成和谱分得到空间结构相对简单的文本低维嵌入,然后通过近邻传播算法得到最终的聚类结果.在谱分解过程中,采用矩阵变换方法,避免了谱算法中特征值分解的高昂计算代价.对真实文本数据集的实验结果表明,所提算法比对比算法聚类更稳定,且聚类结果的NMI值和ANMI值均高于对比算法.  相似文献   

13.
应用模糊C均值算法对文档进行分类,具有不使用语法知识、不使用词法规则、无监督等特点.采用模糊c均值算法对文档进行聚类,实验结果表明:该方法优于普通的聚类算法,聚类结果能充分体现文本的多样性.  相似文献   

14.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

15.
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。  相似文献   

16.
基于co-ICIB联合聚类的舆情监测系统的设计为舆情信息库,它通过联合聚类等数据挖掘算法可以快速及时地发现新的舆论热点.当舆论热点被确认,即在互联网上真正成为一个备受关注的话题时,文本分类算法可以将同一话题内的信息归类,有助于跟踪舆情的发展趋势.该舆情监测系统可为舆情监管部门提供原始舆情资料、数据性图表和建议性分析.  相似文献   

17.
针对传统文本统计学抽样风险问题,采用文本挖掘技术提取相关文献中具有分析价值的信息,引入自然语言处理技术对文献信息进行主题词抽取和清洗,利用文本聚类结合知识图谱和数据可视化,为分析相关文献研究方向的现状、热点和发展趋势等提供依据。以教育类文献为例,通过研究表明,自然语言处理技术与聚类方法结合数据可视化可以为分析当前教育领域的研究热点和发展趋势提供有力的数据支撑。  相似文献   

18.
近年来,随着自然语言处理技术的发展,聚类技术在文本处理领域中的作用愈发凸显。目前,国内多视图文本聚类的相关研究进展仍处于起步阶段,通常运用的聚类方法是基于文本的单一领域来展现特定方面的聚类情况,但越来越多的文本聚类研究从单视图向多视图的方向转变。提出了一种以LDA主题模型和TF-WIDF特征提取算法作为特征向量组,基于谱聚类的改进型多视图半监督文本聚类方法。该方法基于半监督的协同训练(Co-training)算法,通过对协同训练算法中的文本标记方式进行改进,实现无监督性质的多视图协同训练算法。实验结果表明:改进算法相较于传统单视图文本聚类算法,很大程度上避免了单视图算法的偶然性和局限性,提高了文章整体聚类的准确度。  相似文献   

19.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

20.
一种基于文本分类的特征选择方法   总被引:1,自引:0,他引:1  
文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题。针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性。同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心。最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号