期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种基于语义内积空间模型的文本聚类算法 总被引：17，自引：0，他引：17

彭京杨冬青唐世渭付艳蒋汉奎《计算机学报》2007,30(8):1354-1363

现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 相似文献

2.

基于语义列表的中文文本聚类算法*

马素琴施化吉李星毅《计算机应用研究》2010,27(5):1697-1699

针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。相似文献

3.

动态向量的中文短文本聚类

下载免费PDF全文

金春霞周海岩《计算机工程与应用》2011,47(33):156-158

因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。相似文献

4.

海量中文短信文本密度聚类研究

周泓刘金岭《计算机工程》2010,36(22):81-82

根据短信文本的特性,给出一种基于密度的中文短信聚类的方法,该方法将文本数据中具有高密度的区域划分为簇,构造一个可达相似度的升序排列的种子队列存储待扩张的短信文本,选择大阈值相似度可达的对象,即快速定位稠密空间的文本对象使较高密度的簇优先完成。实验结果表明,该聚类方法比K-means提高10倍左右的效率。相似文献

5.

基于语义信息的中文短信文本相似度研究 总被引：1，自引：0，他引：1

下载免费PDF全文

刘金岭宋连友范玉虹《计算机工程》2012,38(13):58-60,70

在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。相似文献

6.

利用word2vec对中文词进行聚类的研究

郑文超徐鹏《软件》2013,(12):160-162

文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。相似文献

7.

一种PST_LDA中文文本相似度计算方法 总被引：3，自引：1，他引：2

张超陈利李琼《计算机应用研究》2016,33(2)

为了降低中文文本相似度计算方法的时间消耗,提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集,分别用LDA方法和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。相似文献

8.

基于手机短信信息流的热点事件识别

刘金岭王新功周泓《计算机应用与软件》2012,(10):200-204

随着手机通信技术的快速发展,短信文本数据流作为载体携带了越来越多的信息资源.为了挖掘出短信文本信息流中富含的一些舆论焦点、社会热点问题,提出热点事件识别算法.该算法采用词共现频度定义特征词相关度,综合前导信息集合及信息产生频率给出短信文本相似度,进而设计基于Single Pass聚类模型的短信文本信息流在线分检算法.在真实数据集上实验表明,各项性能指标都有不同程度的提高. 相似文献

9.

中文词聚类研究 总被引：7，自引：0，他引：7

下载免费PDF全文

胡和平曾庆锐路松峰《计算机工程与科学》2006,28(1):122-124

词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍，本文提出一种面向中文的词聚类算法，算法以词的上下文分布相似度作距离量度；然后分析了仪依据距离量度进行中文词聚类的缺陷，提出词的临近空间概念，并根据词的临近空间概念进行聚类，使得在不用指定类的数
数目与大小的情况下，依靠词的内在语义进行聚类；最后，算法再将聚类结果作为计算相似度的依据，进行EM迭代聚类，使聚类结果得到明显优化。实验证明，算法有效地克服了中文训练数据的数量和质量问题，聚类结果好。相似文献

10.

基于语义概念的海量短信文本聚类

下载免费PDF全文

刘金岭《计算机工程》2011,37(1):57-59,62

提出一种基于语义概念的海量中文短信文本聚类方法。该方法从短信文本出发,利用《现代汉语语义分类词典》的级类主题词,在短信文本向量集中提取概念元组,形成表示聚类结果的高层概念,基于这些高层概念进行样本划分,从而完成整个聚类过程。实验结果表明,该聚类算法有较好的聚类结果且执行效率较高。相似文献

11.

基于混合策略的中文短文本相似度计算

下载免费PDF全文

宋冬云郑瑾张祖平《计算机工程与应用》2018,54(12):116-120

为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型（VSM）,计算关键词加权的文本相似度。然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度。实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断。相似文献

12.

基于知网的中文短信文本词汇链抽取方法

下载免费PDF全文

刘金岭刘丹周泓《计算机工程》2012,38(10):67-69

提出一种基于知网的中文短信文本词汇链抽取方法。根据知网的语义关系,利用相同语义类给出上下文词汇项信息,构造多条词汇链,表达短信文本的多条叙事线索,从中抽取富含短信文本信息的词汇链,表达短信文本的语义信息,采用词汇链的关键词集合进行文本分类。实验结果证明,该方法的抽取准确率较高,文本分类速度较快。相似文献

13.

基于免疫的中文网络短文本聚类算法 总被引：3，自引：0，他引：3

贺涛曹先彬谭辉《自动化学报》2009,35(7):896-902

网络短文本聚类是网络内容安全的一种主要处理方法. 然而, 中文网络短文本固有的关键词词频低、存在大量变形词等特点, 使得难以直接使用现有面向长文本的聚类算法. 本文提出了一种面向中文网络短文本的基于免疫网络调节的聚类算法. 首先, 利用抽取的中文词语的N-gram片段的拼音序列来组成一个中文网络短文本的特征表示, 从而缓解关键词词频过低和存在变形词对聚类的影响; 然后, 将网络短文本集构建为一个动态网络, 利用免疫网络学习机制来自动发现网络短文本之间的内在关联, 获得合适的聚类结果. 测试实验表明, 相对于传统的聚类方法如K-means, 本文的算法能够得到更好的中文网络短文本聚类效果. 相似文献

14.

海量中文短信文本最佳聚类数研究

下载免费PDF全文

刘金岭《计算机工程》2010,36(8):66-68

针对海量中文短信文本的聚类簇数的确定问题，提出一种基于聚类过程的短信文本最佳聚类数确定方法。通过扫描一遍数据即可获得多个统计信息，利用增量逐层划分得到最优划分所对应的簇类数，求出最优解。实验结果表明，与其他方法相比，该方法的分类效率较高。相似文献

15.

面向短文本的神经网络聚类算法研究

孙昭颖刘功申《计算机科学》2018,45(Z6):392-395

词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。相似文献

16.

一种适用于短消息文本的聚类算法

吴勇徐峰《计算机与现代化》2012,(2):31-34

针对短消息文本聚类,设计基于频繁词集和Ant-Tree的混合聚类方法。该算法利用基于频繁词集聚类算法处理文本数据的效率优势,生成初始聚簇,计算轮廓系数消除重叠文档,在此基础上再通过Ant-Tree算法继续精化,最终得到高质量的结果输出。而且聚类结果保留了描述信息和树状层级结构,提供了更广阔的应用。相似文献