首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
李卫疆  王真真  余正涛 《计算机科学》2017,44(2):257-261, 274
近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等) 在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means 聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。  相似文献   

2.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

3.
由于微博跟现实生活有着密不可分的联系,微博的话题聚类可以发掘人们所关注的话题,有利于引导公众舆情。由于传统的文本聚类方法主要适用于长文本,LDA(Latent Dirichlet Allocation)话题模型是一个比较成熟也比较全面的话题聚类方法,实验中利用LDA模型来发掘当前公众讨论的热点话题,提出一种文本关联词算法。利用LDA得到的关键词进行聚类分析,也可以对LDA话题聚类后的结果进行优化调整,得到的结果与标注数据集进行对比分析,实验结果证明该算法能够提高聚类的正确率、召回率和F值。  相似文献   

4.
基于隐主题分析和文本聚类的微博客中新闻话题的发现   总被引:1,自引:0,他引:1  
提出一种在大规模微博客短文本数据集上发现新闻话题的方法。利用隐主题分析技术,解决短文本相似度度量的问题。在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题。此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题。实验证明该算法的有效性。  相似文献   

5.
针对高维、稀疏的中文微博数据, 提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点, 选取出不同时间窗口中具有较高新闻价值的微博文本; 再利用隐主题模型挖掘微博内容中隐含的主题信息, 并在此基础上进行文本聚类; 最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。  相似文献   

6.
随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处理大规模语料集的问题,提出基于MapReduce计算框架,采用Gibbs抽样方法的并行化LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行化实现,并且考察了该并行计算程序的计算性能。通过对Hadoop并行计算与单机计算进行实验对比,发现该方法在处理大规模语料时,能够较大地提升算法的运行速度,并且随着集群节点数的增加,在加速比方面也有较好的表现。基于Hadoop平台并行化地实现LDA算法具有可行性,解决了单机无法分析大规模语料集中潜藏主题信息的问题。  相似文献   

7.
随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐含语义分析的两阶段聚类话题发现方法。引入话题热度的概念来选取具有一定关注度的微博文本,用隐含语义分析(LSA)对数据集进行建模;用层次聚类的CURE算法确定初始类中心;用K-means聚类得到热点话题的聚类结果。真实微博数据集的实验结果验证了该方法的有效性。  相似文献   

8.
微博具有信息量庞大,信息分散多样等特点,已经成为快速分享和传播信息的新平台.传统话题发现算法大部分都是基于划分的,没有考虑话题之间的关联性,存在一定的局限性,因此研究了大规模微博文本集上的话题发现问题.采用具有分词准确率较高、歧义识别特点的西南交通大学思维与智慧研究所中文分词系统对文本进行分词处理,并提出了基于混合模型的微博交叉话题发现算法.实验结果表明,该算法具有一定可行性和有效性.  相似文献   

9.
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA).首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分.通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率.  相似文献   

10.
针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。  相似文献   

11.
计算机安全漏洞检测技术综述   总被引:3,自引:0,他引:3  
由于信息系统已被广泛应用到国家的各个领域,信息系统的安全显得尤为重要。计算机安全漏洞已经成为信息系统的最主要的威胁之一,因此发现信息系统的漏洞检测技术也成为了目前的研究热点。文章对目前漏洞检测技术中的静态检测技术、动态检测技术和混合检测技术进行了概述,并对各种技术的优缺点进行了比较分析。  相似文献   

12.
视频序列中运动对象检测技术的研究现状与展望*   总被引:5,自引:2,他引:3       下载免费PDF全文
郑锦  李波 《计算机应用研究》2008,25(12):3534-3540
将运动对象检测技术分为变化检测、运动检测和特征检测三类,介绍了各类技术的思想,对现有方法进行了归类,指出各方法的本质区别,从理论和实验两方面剖析其优势和不足并指出了适用场合。讨论了目前视频运动对象检测技术存在的问题,展望了未来的发展方向。  相似文献   

13.
雷电电磁辐射的持续时间具有随机性。采用能量法检测雷电数据块,当信号长度远短于数据块长度时,将会产生噪声淹没信号现象而引起检测概率降低的问题。发现可利用峰度来描述含有短雷电信号的数据块的波形特征,而且能量块检测与特征检测具有互补特性。为了提高检测概率,将能量块检测和特征检测相结合,利用自动筛选思想和删余检测技术实时估计背景噪声,提出了实时自适应联合雷电检测算法。通过对实采的雷电数据进行实验,结果表明,所提出的检测算法能够明显提高检测概率,表明了其有效性和实用性。  相似文献   

14.
入侵检测技术的研究与进展   总被引:8,自引:0,他引:8  
入侵检测系统(IDS)作为一门新兴的安全技术,是网络安全系统中的重要组成部分。该文阐述了入侵检测系统的基本原理和功能模块,从数据源、检测方法和检测定时三个方面描述了入侵检测系统的分类,并对目前国内外入侵检测技术的研究现状作了介绍和分析。随着计算机技术和网络技术的高速发展,海量存储和高带宽的传输技术,都使得集中式的入侵检测越来越不能满足系统需求。由此指出,分布式入侵检测(DID)必将逐渐成为入侵检测乃至整个网络安全领域的研究重点,为进行入侵检测技术的研究提供一定的技术和理论依据。  相似文献   

15.
一种混合式网络入侵检测系统   总被引:1,自引:0,他引:1  
孙云  黄皓 《计算机工程》2008,34(9):164-166
入侵检测系统通常采用单一的检测模式,难以有效地处理漏报和误报问题。该文分析不同类型网络流量的分布特征,提出一种将异常检测和误用检测相结合的混合式网络入侵检测系统,从总体上克服了单一模式的不足。实验结果表明,该方法能有效地提高入侵检测系统的检测率和准确率。  相似文献   

16.
分析了异常和误用入侵检测技术存在的一些问题,并结合神经网络的原理,提出了一个新的基于Hamming网络的入侵检测技术。该技术改善了基于特征检测算法中存在的不足,提高了对未知入侵类型的检测能力,并对Hamming网络入侵检测技术进行了分析和测试。  相似文献   

17.
智能入侵检测技术述评   总被引:2,自引:0,他引:2  
入侵检测是网络安全技术研究的一个新方向,入侵检测技术是入侵检测系统(IDS)的核心。智能入侵检测技术由于其具有自学习、自适应等特点,已经成为目前的研究热点。文章首先简述了IDS的发展历史背景及其重要性,概要介绍了IDS常用的两类检测技术,详细介绍了几种常用的智能入侵检测技术,指出目前的智能检测技术存在的不足及其今后的发展趋势。  相似文献   

18.
司机疲劳驾驶实时检测系统设计   总被引:1,自引:0,他引:1  
司机疲劳驾驶实时检测系统在实际应用中有很重要的意义.设计了一个利用图像分析的方法,通过测量PERCLOS指标值来进行疲劳判断的该类系统.系统首先对图像进行预处理,然后采用基于YCbCr颜色空间肤色模型进行人脸粗定位,根据人脸特征,逐次进行人眼区域缩小;最后通过对边缘信息进行先验知识结合积分投影的方法进行人眼定位和闭合度测量.考虑到视频图像序列帧与帧之间的相关性,采用线性运动预测的方法对人眼进行跟踪,减少了系统的运算量.实验结果表明系统能实时、准确地反映司机的疲劳状态.  相似文献   

19.
入侵检测工作应在计算机网络系统中的关键节点上。介绍入侵检测的基本概念,阐述两类基本的检测技术,详细地论述了入侵检测过程及检测技术面临的挑战与发展趋势。  相似文献   

20.
We locate the eye corners, eyelids, and irises in every frame of an image sequence, and analyze the movements of the irises and eyelids to determine changes in gaze direction and blinking, respectively. Using simple models for the motions of the head and eyes, we determine the head-independent motions of the irises and eyelids by stabilizing for the head motion. The head-independent motions of the irises can be used to determine behaviors like saccades and smooth pursuit. Tracking the upper eyelid and using the distance between its apex and the center of the iris, we detect instances of eye closure during blinking. In experiments on two short image sequences, in one of which the subject was wearing glasses, we successfully located the irises in every frame in which the eyes were fully or partially open, and successfully located the eyelids 80% of the time. When motion information in the form of normal flow was used, the irises were successfully tracked in every frame in which the eyes were fully or partially open, and the eyelids were successfully located and tracked 90% of the time.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号