首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

2.
由于微博跟现实生活有着密不可分的联系,微博的话题聚类可以发掘人们所关注的话题,有利于引导公众舆情。由于传统的文本聚类方法主要适用于长文本,LDA(Latent Dirichlet Allocation)话题模型是一个比较成熟也比较全面的话题聚类方法,实验中利用LDA模型来发掘当前公众讨论的热点话题,提出一种文本关联词算法。利用LDA得到的关键词进行聚类分析,也可以对LDA话题聚类后的结果进行优化调整,得到的结果与标注数据集进行对比分析,实验结果证明该算法能够提高聚类的正确率、召回率和F值。  相似文献   

3.
传统的向量空间模型表示文本的缺点是向量维数高,向量空间模型中一个文本是一个大的稀疏矩阵,计算文本之间的距离或者相似度时,算法的效率低,聚类效果不理想。在主题模型(Latent Dirichlet Allocation,LDA)中,将文本表示成主题(Topic)的概率分布,主题表示为词的概率分布。主题模型下,指定主题数目为T时,所有待聚类的文本都被表示成维数为T的向量。K-均值算法作为本文的聚类算法,并通过实验验证了主题模型的聚类效果要好于向量空间模型的聚类。  相似文献   

4.
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型--主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用[K]-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。  相似文献   

5.
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。  相似文献   

6.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

7.
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。  相似文献   

8.
当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.  相似文献   

9.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。  相似文献   

10.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

11.
心电信号是典型的强噪声下的非平稳微弱信号,减小噪声的干扰对心电信号的分析有着十分重要的意义,因此,有效的滤波方法一直是该领域学者关注的热点问题。本文在基于小波变换心电信号分析研究基础上,针对小波去噪时分解只作用于低频部分,从而忽略了高频区域中一部分有用信号的问题,提出了一种采用改进小波包理论实现心电信号去噪的方法,利用小波包在消除信号噪声方面具有更为精确的局部分析能力的特点,采用了‘db4’小波和"最优基"选择的方法,对心电信号进行消噪。以MIT-BIH心电数据库中心律失常数据仿真实验,得到了较理想的去噪效果。对比该方法与小波滤波去噪,发现基于小波包的心电信号去噪具有更优良的去噪性能。  相似文献   

12.
基于CAN总线实时应用的可靠调度性研究   总被引:1,自引:0,他引:1  
邓竹莎  雷航  罗淳  康涌泉 《计算机应用》2006,26(6):1301-1303
CAN总线是一种高级的串行通信协议,适用于各种分布式控制系统。在实时应用中,标准的CAN协议使用静态优先级算法,对传输信道的利用率比较低。对基于CAN总线通信的动态优先级调度算法进行研究后,提出了一种基于指数分配方式的MTS算法,在保证强实时性消息的同时兼顾了低优先级消息的公平性。  相似文献   

13.
VoIP认证与计费的设计与实现   总被引:1,自引:0,他引:1  
张书奎 《微机发展》2004,14(9):63-65,68
基于RADIUS的VoIP认证系统,采用分散受理、集中管理的接入认证管理体系,数据集中存放在认证中心(RADIUS服务器),用户身份认证由PC向网守发起,网守通过RADIUS协议向认证中心的认证服务器发起认证请求。这样,可以保证用户安全地使用网络资源,以确保用户身份的合法性。同时其落地话单经过处理,可进行计费及其它帐务处理。文中论述了RADIUS对VoIP的支持,提出了一个Gatekeeper与RADIUS结合的整体解决方案。  相似文献   

14.
近年来,随着大数据业务的使用,系统在运行时会产生大量的数据信息与日志文件并保存在磁盘中。由于在系统规划初期,对系统分区大小规划预期不足,很难合理规划磁盘空间,造成后期系统运行中经常出现系统分区磁盘不足的问题。当发生此类告警时,通常的分区很难动态调整大小,通常采用暂停业务,更换磁盘,数据备份与恢复的方式,该方式操作困难,程序复杂,有数据丢失的风险。在Linux系统里使用LVM(逻辑卷)技术,支持在线空间扩容,可以在用户无感知的情况下扩展系统分区容量,达到合理利用磁盘空间的目的。本文介绍了LVM技术,并在Linux系统里将分区做成逻辑卷,达到合理利用磁盘空间的目的。  相似文献   

15.
VCR智能无扰动特性的精确数值运算   总被引:3,自引:1,他引:2  
根据智能变进制(VCR)的变溢性、拓展性及申缩性有机结合的技术,提出一种新颖智能的、无数字扰动的精确数值运算.该运算结果值的精确位数.是可以任意或无限地确定的,它可以很好地解决了计算机数值分辨率即由CPU字长制约的有效数字位教不足而造成的数值精确计算PC(Precise Computing)的扰动性问题,例如对中国古代数学家祖冲之曾研究圆周密率π值实验数据(π=355/113)的除法精确计算.  相似文献   

16.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

17.
地图匹配( MM)算法通过粒子滤波( PF)利用室内地图信息来抑制基于惯性传感器的室内定位系统的误差累计。利用区域生长( RG)算法结合当前步长和方向信息在地图上找到合理的落脚范围,并以此来判断粒子的有效性。这种方法能有效改善地图配准算法的实用性和计算复杂度。提出一种改进的零速度( ZV)检测算法能准确提取步伐信息,间接提升了零速度更新( ZUPT)算法和地图配准算法的精度。实验结果表明:该算法的定位误差小于1.0%,定位精度比单纯的航位推算( DR)算法平均提高了5.97%。  相似文献   

18.
该文提出了适应于大型计算机网络和通信网络及应用系统的综合系统管理与网络管理体系结构,研究了基于大型数据库和Web技术的网管、网络自动拓扑发现、策略描述与策略服务以及资源依赖性分析服务等关键技术。该文将这些关键技术应用到综合系统管理与网络管理原型系统的工程实践中,为最终研制高性能、可伸缩和实用的系统管理与网络管理产品提供强有力的技术支持。  相似文献   

19.
基于数据仓库的数据采掘技术应用   总被引:10,自引:0,他引:10  
本文首先分析了基于数据仓库的数据采掘的主要方法,技术和应用,然后通过实例讨论了数据采掘在股票分析与决策系统中的应用。  相似文献   

20.
与说话人识别、连续语音识别相比,自动语言辨识是一个相对较新的研究,而且是一项较难的课题。与音素配位学相比较韵律是语言辨识的更有希望的一个语言辨识特征。论文介绍了一种基于伪音节结构CnV的自动语言辨识方法,该系统提取了辅音、元音构成的伪音节结构的MFCC和!MFCC特征参数,使用了与语言无关的GMM算法模型化该特征。经过对OGI-TS数据库中的英语、法语、汉语测试表明,元音、辅音特征信息在语言辨识中起到一定作用,伪音节结构模型也是语言辨识的有效模型之一。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号