首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。  相似文献   

2.
基于潜在语义分析的文档检索设计方法   总被引:1,自引:0,他引:1  
文档检索系统围绕如何基于语义层面进行检索来展开研究.基于关键词匹配的检索系统不能处理多词一义的情况,针对此问题设计了基于潜在语义分析的文档检索系统.首先改进了文档一词矩阵单元值的计算过程,调整了传统高频词与低频词在权重上的线性关系,利用Sigmiod函数对权重做平滑处理,使其更符合文档中词的权重;其次利用潜在语义分析结合多维尺度分析算法,优化计算文档在语义间的距离.实验结果显示,能有效在语义上聚类文档,完成查询语句与文档集之间的相似度检索计算.  相似文献   

3.
为了解决主题识别过程中词的上下文语境缺失问题,通过卷积神经网络将特定的上下文信息嵌入到词向量中,再将词向量输入到判别式主题模型中。本方法可以融合附加标签信息进行有监督的训练,处理文档分类等下游任务。通过与现有判别式主题模型进行对比和分析,能够获取到更加连贯的主题,同时在文本分类任务上表现出更好的预测性能,从而验证了方法的有效性和准确性。  相似文献   

4.
针对隐含狄利克雷分布(LDA)模型特征提取时忽略语义信息的问题,提出一种融合LDA和全局文本表示(GloVe)模型的病症文本聚类算法LG&K-Medoide.首先,利用LDA对病症文本数据建模,采用JS(Jensen-Shannon)距离计算文本相似度;其次,利用GloVe对病症文本数据建模获取词向量,根据病症词性贡献...  相似文献   

5.
针对红外人脸识别问题,提出一种新的基于尺度不变特征转换(SIFT)与多示例学习(MIL)相结合的算法。该算法将图像当作多示例包,SIFT描述子当作包中的示例,利用聚类的方法对训练集中的所有SIFT描述子进行聚类,建立"视觉词汇表",再根据"视觉字"在多示例训练包中出现的频率,建立"词-文档"矩阵,采用潜在语义分析(LSA)的方法获得多示例包(图像)的潜在语义特征,将MIL问题转化成标准的有监督学习问题,即在潜在语义空间用支持向量机(SVM)求解MIL问题。基于OTCBVS标准数据集的对比实验结果表明,所提算法是可行的,且识别率明显高于其他方法。  相似文献   

6.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

7.
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。  相似文献   

8.
提出了一种改进的同时正交基聚类特征选择(Improved Unsupervised Simultaneous Orthogonal Basis Clustering Feature Selection,ISOCFS)方法。为有效地对无标签数据进行特征选择,利用目标矩阵来设计正则化的回归模型。目标矩阵通过正交基聚类,获取投影数据点的潜在聚类中心,引导投影矩阵选择判别性的特征。与先前的无监督特征选择方法不同,ISOCFS并不使用数据点预先计算局部结构信息描述目标函数,而是利用目标矩阵进行正交基聚类直接计算潜在的聚类信息。其次,为了减少噪声信息对估计目标矩阵和投影矩阵的干扰,在先前方法基础上,该方法增加了噪声项。另外,该方法利用简单的优化算法即可求解。最后,通过四个常见的微阵列基因表达数据集及五种最近的无监督特征选择方法进行对比实验,证明了ISOCFS方法可以获得更好的聚类效果。  相似文献   

9.
针对如何有效地利用图像视觉信息与标注信息进行图像聚类的问题,提出了一种基于视觉单词与标注单词共生的聚类算法.在视觉特征空间,采用K-means算法对图像聚类,得到表征图像视觉信息的视觉单词,即聚类中心.在图像标注字空间,计算各聚类中心下标注单词的统计分布,建立视觉单词与标注单词共生矩阵,进而针对图像提取嵌入有视觉信息的标注词特征LDA(latent dirichlet allocation)主题模型作为最终聚类算法完成图像的聚类.通过对Pascal VOC 2007标注图像数据库进行的实验仿真以及对比试验结果表明,基于视觉单词与标注单词共生的聚类算法可以有效地利用图像的视觉信息与标注信息的互补特性,提高聚类算法的性能.  相似文献   

10.
维基百科的中文语义相关词获取及相关度分析计算   总被引:2,自引:0,他引:2  
本文介绍了利用开放式百科全书维基百科获取语义关联词汇,并对语义相关程度进行分析和计算的方法。我们选择并整理了5万余篇维基百科中文语料,并利用超链接关系及词的互现等特征,获得了近40万对在概念或事实存在某种紧密语义关系的词,并简单分析了其聚类特性。进一步我们结合词在文档中的位置、频率等信息对语义相关程度进行了计算,并结合经典算法的相关结果,在不同语义相关度的集合上进行了对比实验,分析了本文获取语义关联词方法的有效性  相似文献   

11.
主题分析技术在文档聚类中的应用   总被引:1,自引:0,他引:1  
为解决高频特征对文章的主题信息反映不够全面,无法获得高质量聚类结果的问题,同时为获得聚类后各类别反映信息的精确描述,采用词汇链反映文章所描述的主题信息,并依据文本间词汇链的相似度进行聚类.将聚类后属于同一类别并反映相同主题信息的词汇链进行融合,通过分析各词汇链所描述的主题信息在不同类别内的分布来抽取能够充分反映各类别主题的关键词集合.实验证明该方法比应用高频特征进行聚类的效果好,同时由于分析了主题信息在各类别内的分布情况,使抽取的类别关键词能够很好地体现每个类别所侧重描述的信息.  相似文献   

12.
将典型日负荷曲线的选取问题转化为基于统计学习的多元分类问题,利用概率潜在语义分析模型(PLSA)进行问题求解。方法首先通过K均值聚类和负荷曲线时段划分形成观测特征词和目标文档,通过阈值计算获得特征词-目标共生矩阵;然后基于Davies-Bouldin指标计算PLSA模型的最佳主题数目,并对模型参数求解获得每个目标文档中特征词的潜在主题;最后依据电力负荷曲线与特征词的对应关系形成新的聚类,并采用选取策略获得各聚类的典型日。实验表明,方法能够较好的反映节假日、气候等因素的影响,典型日选取合理可行。  相似文献   

13.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

14.
Category-based statistic language model is an important method to solve the problem of sparse data. But there are two bottlenecks: 1) The problem of word clustering. It is hard to find a suitable clustering method with good performance and less computation. 2) Class-based method always loses the prediction ability to adapt the text in different domains. In order to solve above problems, a definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given. Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance, and the perplexity is reduced from 283 to 218. At the same time, an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability. The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora, and is reduced from 195.56 to 184.25 on English corpora compared with category-based model.  相似文献   

15.
为了解决服务合成中的服务描述这一关键问题,提出了一种基于输入-输出接口模型和数据流图模型的服务描述方法.用功能对象的概念表示通过网络连接的各种硬件、软件和多媒体资源,通过描述功能对象的输入-输出接口来表示用户所需要的资源.采用数据流图来表示所需资源之间的连接.根据以上基于输入-输出接口描述和数据流图的模型,提出了基于扩展标记语言(extensible markup language,XML)的服务描述规范,同时介绍了一个生成服务描述文档的客户端软件工具,并已应用于网上服务合成平台STONE(Service syn Thesizer On NEt)系统中.研究表明,基于输入-输出接口描述和数据流图的服务描述方法,是解决网上服务合成中服务描述的有效途径.  相似文献   

16.
基于微博数据的台风"山竹"舆情演化时空分析   总被引:1,自引:0,他引:1  
将情感分析模型、动态演化模型、话题聚类模型、网络社团模型结合地理可视化技术应用到台风的灾害评估中。将微博情绪与台风灾害联系起来,从情感值与讨论热度两个角度入手,根据台风“山竹”相关话题的25 798条微博数据,完整的展示本次事件网络舆情的演化过程,通过隐含狄利克雷分布(latent dirichlet allocation, LDA)主题模型挖掘用户关注话题,发现台风登陆事件与湖南收费站事件对公众情绪的消极影响;抽取台风“山竹”相关微博中蕴含的地理位置信息,建立广东省21个城市的网络社团模型,检验用户情绪、城市词频、用户位置、网络节点活跃度等指标探测受灾城市的能力;根据广东省38个气象站点的24 h最大降雨数据进行空间插值。降水主要集中在广东南部地区,阳江市发生特大暴雨,引发了严重的洪涝灾害,其情绪值也是最低的。  相似文献   

17.
将情感分析模型、动态演化模型、话题聚类模型、网络社团模型结合地理可视化技术应用到台风的灾害评估中。将微博情绪与台风灾害联系起来,从情感值与讨论热度两个角度入手,根据台风“山竹”相关话题的25 798条微博数据,完整的展示本次事件网络舆情的演化过程,通过隐含狄利克雷分布(latent dirichlet allocation, LDA)主题模型挖掘用户关注话题,发现台风登陆事件与湖南收费站事件对公众情绪的消极影响;抽取台风“山竹”相关微博中蕴含的地理位置信息,建立广东省21个城市的网络社团模型,检验用户情绪、城市词频、用户位置、网络节点活跃度等指标探测受灾城市的能力;根据广东省38个气象站点的24 h最大降雨数据进行空间插值。降水主要集中在广东南部地区,阳江市发生特大暴雨,引发了严重的洪涝灾害,其情绪值也是最低的。  相似文献   

18.
研究了一种基于自组织神经网络的中文文档聚类方法,按照提出的中文聚类模型,该方法首先对文档进行SOM训练产生初步的聚类结果,然后对第一次聚类结果进行基于参考点和密度的快速聚类,理论分析和实验结果也证明了该方法适合高维中文文档的聚类,与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号