首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
为了提高个人微博相似度的精确性,实现事件的高效归类,提出一种基于改进的Jaccard相似度和余弦相似度的JS综合相似度算法。该算法采用改进的TF-IDF算法提取特征词及LDA(Latent Dirichlet Allocation)主题模型构造同类词模板,在此基础上计算个人微博相似度,最后利用K-means时序事件归类算法对个人微博进行归类。实验结果表明所提出的JS综合相似度算法比传统的相似度算法具有更高的精确度,在一定程度上提高了个人微博时序事件归类的准确性。  相似文献   

2.
微博是一种社交网络服务,它主要基于用户的关注关系进行信息分享和传播,具有时效性强、传播迅速等特点。将微博看成是反映城市动态的一类感知器,从识别微博的主题入手,检测微博中反映的时空事件。为此,首先提出了一种用于分析微博主题的主题模型ST-LDA,并应用该模型将具有语义相似性、时空聚集性的微博归属于同一主题下;然后给出了从主题中检测时空事件的方法。基于真实的新浪微博数据进行实验,结果表明此方法比基于LDA的方法、基于TimeLDA的方法在事件识别上有更高的查全率和查准率。  相似文献   

3.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

4.
5.
基于特征映射的微博用户标签兴趣聚类方法   总被引:1,自引:1,他引:0  
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根 据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。  相似文献   

6.
从微博中准确高效地挖掘出正在发生的热点事件是近年来研究的热点。通过综合考虑微博用户的粉丝数量和微博本身的转发、评论次数计算每条微博的影响力,从而提出一种基于影响力的微博新兴热点事件检测方法 IEED(Influence-Based Emerging Hotspot Event Detection)。该方法运用层次聚类将微博帖子聚类为事件集,并提取出事件中的关键词构成事件摘要。通过运用现实生活中的新浪微博数据作为实验数据集来测试所提出的方法,实验结果证明,基于影响力的微博新兴热点事件检测方法(IEED)能在早期高效地检测出微博中的新兴热点事件,具备一定的应用价值。  相似文献   

7.
基于微博的用户相似度计算研究   总被引:1,自引:0,他引:1  
针对传统的相似度计算方法和评价标准在准确、高效地度量微博用户相似关系时不理想的缺陷,提出一种新的微博用户相似度的计算方法。该方法针对不同的属性数据结构采用不同的计算方式,并根据属性统计信息对各个属性赋值,利用层次分析法确定各属性权值,最后构建综合相似度计算模型。实验结果表明,相对于传统的相似度计算方法,所提计算方法衡量用户相似的准确度提高了22.6%,召回率提高了12.7%,F1度量值提高了29.5%。  相似文献   

8.
通过结合情感词库和微博语义特征,采用向量空间模型的方法表示微博文本,提出一种融合模式匹配和机器学习的微博文本倾向性分析方法。对分词之后的微博文本,先提取出情感关键词,再匹配分析出的几种模式抽取情感评价短句,情感短句和微博表情符号等其它情感特征共同组成情感特征序列,最后采用多步分类的支持向量机方法得到微博文本的情感倾向。通过实验与其它评测结果进行对比,表明本文方法有效。  相似文献   

9.
基于新闻要素的新事件检测方法研究   总被引:1,自引:0,他引:1  
薛晓飞  张永奎  任晓东 《计算机应用》2008,28(11):2975-2977
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。  相似文献   

10.
基于事件的文本表示方法研究   总被引:1,自引:1,他引:0  
在传统文本表示模型的研究基础上,针对叙事类文本,考虑以事件作为基本语义单元,并结合图结构表示的 特点,提出了一种基于事件的文本表示方法—事件网络。该方法利用事件和事件间的关系来表示文本,能够较大程 度地保留文本的结构信息及语义信息。实验结果表明,基于该方法的自动摘要取得了较好的效果。  相似文献   

11.
提出一种适合于岩石裂隙类边缘提取的数字图像处理算法.通过分析破损岩石裂隙图像像素点区域特征,在经典的canny算子图像处理算法的基础上,提出了自适应加权中值滤波并结合高斯滤波针对不同区域像素进行预处理,算法能够根据裂隙类图像的区域特征自适应进行滤波.试验结果表明,本算法能够提高裂隙边缘检测的准确性,获得比较理想的边缘检测效果.  相似文献   

12.
为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法组合运算的特性,通过向量相加获得微博的向量表示以及正负情感向量;最后,通过计算微博向量和正负情感向量的相似度判断微博的情感倾向。在NLP&CC2012数据上进行实验,结果表明,该方法能够有效识别微博的情感倾向,较传统的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分别提高了23%和26%。  相似文献   

13.
在微博热点话题发现中,微博文本短、词量少、时效性高,传统的话题检测方法不再适用。针对这些新的特点,提出一种基于微博文本和元数据的话题发现方法。首先利用微博发布时间、用户信息、微博转发评论等元数据构造描述微博词汇能量的复合权值,进而提取出话题的主题词汇,然后基于上下文关系构造主题词汇簇,最后对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关微博文本。在真实微博数据上的实验表明,该方法能有效发现热门话题,提高话题检测的准确率和查全率。  相似文献   

14.
针对传统特征码基于程序二进制文本的提取方法,提出一种对于安卓应用程序Java源码进行特征提取的方法。该方法通过使用谷歌距离计算源码中关键词如API调用、安卓权限和常用参数之间的相关度,挖掘安卓恶意软件源码中常用的关键词,将其按照相似度分类。然后与正常软件中的关键词进行对比实验,得到安卓恶意软件的特征。该方法打破了以往依靠文本上下文环境记录病毒特征的常规方法,结合整个病毒软件操作环境形成特征库,记录下病毒的行为作为特征。实验证明,该方法是行之有效的。  相似文献   

15.
微博文本长度短,网络用语层出不穷,传统方法在微博事件追踪中忽略了博文语义信息,导致追踪效果不够理想。针对该问题,提出一种基于维基知识的微博事件追踪方法。首先,定义维基词条的强相关实体和别名实体,并将维基知识表示为五元组形式。然后,构建词语空间到维基实体空间的映射来表示初始事件向量及后续博文向量。最后,计算博文向量与初始事件向量之间的语义相似度,并依据设定阈值进行判决,从而完成事件追踪。实验结果表明,相比传统方法,该方法可以充分利用维基知识语义信息,有效提高微博事件追踪的性能。  相似文献   

16.
在分析传统短文本主题词提取算法的基础上,综合考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法PWSWE(Personal weibo subject word extraction algorithm)。该算法采用增量式的提取模式,首先引进由微博转帖、评论和赞数组成的流行度概念;其次对耦合、时序和流行度进行串行相似度计算;再次针对关键词特征值离散现象,对传统TF-IDF函数进行改进;最后综合以上提取结果并进行相应地处理得到最终的主题词。实验结果证明该算法提取的主题词具有较高的准确率和覆盖率。  相似文献   

17.
微博作为发展最迅猛的信息传播平台,每天都会产生大量数据,迅速增长的数据对数据处理提出了新的要求。针对微博数据特点,对VSM模型进行改进,并在MapReduce平台上,设计微博热点话题发现并行模糊C均值(HTD-PFCM)算法。实验结果表明,基于改进VSM模型的HTD-PFCM算法具有良好的加速比,并且能够更高效地处理微博数据,发现微博热点话题。  相似文献   

18.
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。  相似文献   

19.
微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策具有重要意义。用户兴趣、微博作者影响力及微博内容等信息均影响信息传播过程。转发行为预测的挑战性问题在于如何捕获更多有意义的影响因素以提高预测性能。提出基于混合特征学习的转发预测方法,该方法首先引入并分析了局部社会影响力特征、用户特征、微博内容特征的计算方法;接着,基于分类器建立预测模型;最后,比较了不同类型微博的转发预测效果。在新浪微博平台数据的实验结果表明,局部社会影响力特征、用户特征、微博内容特征都对转发预测有较大影响,其中微博内容特征的影响最大。随机森林预测效果最好,准确率达到83.1%;与朴素贝叶斯、逻辑回归、支持向量机模型相比,准确率平均提高约7.4%,最高提高约10.8%。另外,该方法对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号