首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模,并通过K-means聚类算法挖掘微博热点话题。实验结果表明,与针对单一微博文本建模的方法以及直接合并相同标签的方法相比,该方法的困惑度较低,挖掘热点话题的准确性较高。  相似文献   

2.
李卫疆  王真真  余正涛 《计算机科学》2017,44(2):257-261, 274
近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等) 在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means 聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。  相似文献   

3.
由于微博跟现实生活有着密不可分的联系,微博的话题聚类可以发掘人们所关注的话题,有利于引导公众舆情。由于传统的文本聚类方法主要适用于长文本,LDA(Latent Dirichlet Allocation)话题模型是一个比较成熟也比较全面的话题聚类方法,实验中利用LDA模型来发掘当前公众讨论的热点话题,提出一种文本关联词算法。利用LDA得到的关键词进行聚类分析,也可以对LDA话题聚类后的结果进行优化调整,得到的结果与标注数据集进行对比分析,实验结果证明该算法能够提高聚类的正确率、召回率和F值。  相似文献   

4.
郑世卓  崔晓燕 《软件》2014,(1):46-48
在如今信息数据大爆炸的时代,数据的增长呈现指数级增长,而且其中大部分数据是非结构化数据,这些数据中蕴藏着大量且重要的知识等待着我们用合理的办法将其挖掘出来,如何方便合理快速的进行文本分类也是一个非常重要的课题。LDA模型是一种无监督的模型,它可以发现隐性的主题,为了更有效的发现隐性主题,本文提出一种基于半监督的LDA主题模型,找到一个主题集作为隐性层的知识集,通过这种方法找到的主题与文本更相关,另外,将LDA模型与基于半监督LDA模型应用于文本的特征提取,并与其它特征提取方法比对,实验表明,半监督LDA模型性能略好。  相似文献   

5.
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题.提出了一个融合词共现与加权GN (CW-WGN)算法的快速话题发现方法,描述了CW-WGN方法的详细过程,给出方法的具体算法.采集了sina微博、新闻网站的标题真实的短文本数据,构建了基础测试数据集,采用LDA与K-means方法作为对比进行了大量对比实验.实验结果表明CW-WGN比LDA和K-means方法能够多发现20%以上的正确话题,而且发现的话题纯度也高于LDA与K-means.此外,CW-WGN消耗的时间最少,能够有效地从实际大规模短文本上发现话题.  相似文献   

6.
一种PST_LDA中文文本相似度计算方法   总被引:3,自引:1,他引:2  
为了降低中文文本相似度计算方法的时间消耗,提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集,分别用LDA方法和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。  相似文献   

7.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

8.
邱先标  陈笑蓉 《计算机科学》2018,45(Z6):106-109, 139
计算文本的相似度是许多文本信息处理技术的基础。然而,常用的基于向量空间模型(VSM)的相似度计算方法存在着高维稀疏和语义敏感度较差等问题,因此相似度计算的效果 并不理想。在传统的LDA(Latent Dirichlet Allocation)模型的基础上,针对其需要人工确定主题数目的问题,提出了一种能通过模型自身迭代确定主题个数的自适应LDA(SA_LDA)模型。然后,将其引入文本的相似度计算中,在一定程度上解决了高维稀疏等问题。通过实验表明,该方法能自动确定模型主题的个数,并且利用该模型计算文本相似度时取得了比VSM模型更高的准确度。  相似文献   

9.
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。话题是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。  相似文献   

10.
分析了查询似然模型,针对传统查询似然检索模型没有考虑文本间相关性的缺点,将链接模型引入到文本检索中,提出一个计算文本间相关性的DocRank算法。该算法通过计算两两文本间的相关性,构建一个文本矩阵,利用幂迭代法得到每个文本的优先度值,将其融合到查询似然检索模型中以准确定位所检索文本,实验结果验证了改进算法在文本检索中的有效性。  相似文献   

11.
基于CRF算法的汉语比较句识别和关系抽取*   总被引:7,自引:2,他引:5  
比较句是表明事物之间关系的常见表达方式,对于文本挖掘,特别是情感分析,具有重要的价值。目前汉语比较句的研究还是一个新颖的课题,包括汉语比较句的识别和比较关系的抽取。对于汉语比较句的识别,在前人研究的基础上,以SVM为分类器,以特征词和CSR序列规则为特征,同时利用CRF算法抽取实体对象,并增加以实体对象的信息作为特征,显著提高了比较句识别的准确率、召回率和F-度量,最高分别达到96.55%、88.63%和92.43%。对于汉语比较关系的抽取,在CRF算法抽取实体对象的基础上,通过定义一些规则,抽取比较主体和比较基准,也取得了较好的效果,其中比较主体的抽取效果要好于比较基准。  相似文献   

12.
基于偏微分方程的图像去噪综合模型   总被引:7,自引:3,他引:4  
介绍了基于偏微分方程(PDE)的两种去噪模型,即ROF模型和LLT模型。根据对这两种模型的比较,提出了应用权函数来合并ROF模型和LLT模型的综合模型。实验表明,综合模型既能克服ROF模型和LLT模型的缺点,又能融合它们的优点,在去噪、保护平滑区域、保护边缘和纹理细节方面都有较好的表现。  相似文献   

13.
对基于PDEs的图像平滑技术进行了探讨,在对四阶模型u/t=-▽2 [c(|▽2u|)▽2u] 解的分析基础上,给出一种求解该模型的数值方法,数值实验结果给出了良好的去噪效果。  相似文献   

14.
The application of scientific tools to analyse the use of Internet-based e-learning tools in academic settings is in general an ignored area. E-learning tools are actually an emergent topic as a result of the new ideas introduced by the European Higher Education Area. Lifelong learning, or the promotion of student initiative, is the new paradigm of a learner-centred education. In this context, e-learning tools can represent an effective way of supporting this new trend in education. Assuming the premise that successful use of these web-based tools depends primarily on a user's behaviour, the objective of this research is to examine the technology acceptance model (TAM) of web-based e-learning tools used in practical and laboratory teaching. The research hypotheses derived from this model have empirically been validated using the responses to a survey on e-learning usage among 220 users. These responses have been examined through partial least square. The obtained results strongly support the extended TAM in predicting a student's intention to use e-learning and define a set of external variables with a significant influence in the original TAM variables. Surprisingly, perceived ease of use did not posit a significant impact on student attitude or intention towards e-learning tool usage. Therefore, early evaluation of e-learning material is considered essential to providing a framework for further improvements of the tool.  相似文献   

15.
PC模型是一个著名的基于区域的活动轮廓模型,它实际上是利用水平集方法解决分片常值灰度图像的分割问题。提出一个以偏微分方程形式表达的新模型,它可以看成是PC模型的一种改进。实验显示:新模型能够实现分片常值灰度图像的快速分割,同时迭代次数对初始轮廓的大小和位置不敏感。  相似文献   

16.
数据仓库的多维数据模型研究   总被引:3,自引:0,他引:3  
作为数据仓库设计的核心和基础,数据模型的研究直接影响到决策支持技术的发展。该文首先在对OLAP的需要分析基础上,提出了研究数据模型应该满足的六点约束,并分析了现有模型的优缺点。然后,针对这六点约束,引进分维函数建立多维模型视图,利用聚集偏序集族定义维的结构,提出了一种多维数据模型,并给出了以OLAP操作为核心的操作代数。  相似文献   

17.
局部放电监测中广泛采用三维谱图方法分析放电特征,进行故障预警.放电数据具有采集周期间隔短,数据量大,实时性要求高等特性,而目前的三维谱图模型技术存在响应慢,结构细节易被遮挡等问题.因此,提出了一种三维线框模型,通过顶点和棱边来描述几何形状,并采用矩阵变换法对立体形状进行二维投影.该模型具有结构简洁、内存需求量小、响应速度快等优点.实际应用表明,三维线框模型可以良好展示局部放电数据的三维谱图.  相似文献   

18.
李敬文  于自强 《计算机工程》2010,36(24):281-283
根据立方体染色思想,建立排课表模型,引入关联锁原理,将排课表约束条件转化为立方体点线面关系,增强该模型的收敛性,从而更好地解决排课问题。分析结果表明,在教师、课程、学生等信息已知的情况下,该模型可给出教学资源消耗的最小值,达到合理利用教学资源的目的。  相似文献   

19.
基于局部特征级联分类器和模板匹配的行人检测   总被引:1,自引:0,他引:1       下载免费PDF全文
在智能视频监控领域,行人检测正受到广泛关注。为了提高检测率,将基于局部特征的Adaboost级联分类器和模板匹配相结合。首先通过分析和比较提出了一种行人局部特征的选取方法,然后对人体局部进行建模,将模板匹配的思想融入行人检测。最后通过实验证明,该方法在行人检测上可以取得较好的效果。  相似文献   

20.
纸浆的卡伯值是蒸煮过程的重要质量指标,为合理控制蒸煮工艺条件需要在线测量蒸煮过程中纸浆的卡伯值。在线光谱法测量卡伯值需以工业现场数据为基础,对可见光吸收光谱法预测亚硫酸盐法间歇蒸煮过程中纸浆卡伯值进行建模研究,经过多种统计模型的比较,发现偏最小二乘法回归模型能够提高预测精度,增强模型的适应性和稳定性,这一方面验证了光谱法的可行性,另一方面也显示光谱法有待完善。希望通过对光谱测量机理的研究,提高光谱信息的利用率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号