共查询到19条相似文献,搜索用时 46 毫秒
1.
《计算机应用与软件》2015,(7)
为了提高个人微博相似度的精确性,实现事件的高效归类,提出一种基于改进的Jaccard相似度和余弦相似度的JS综合相似度算法。该算法采用改进的TF-IDF算法提取特征词及LDA(Latent Dirichlet Allocation)主题模型构造同类词模板,在此基础上计算个人微博相似度,最后利用K-means时序事件归类算法对个人微博进行归类。实验结果表明所提出的JS综合相似度算法比传统的相似度算法具有更高的精确度,在一定程度上提高了个人微博时序事件归类的准确性。 相似文献
2.
3.
4.
5.
基于特征映射的微博用户标签兴趣聚类方法 总被引:1,自引:1,他引:0
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根
据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。 相似文献
6.
《计算机应用与软件》2016,(5)
从微博中准确高效地挖掘出正在发生的热点事件是近年来研究的热点。通过综合考虑微博用户的粉丝数量和微博本身的转发、评论次数计算每条微博的影响力,从而提出一种基于影响力的微博新兴热点事件检测方法 IEED(Influence-Based Emerging Hotspot Event Detection)。该方法运用层次聚类将微博帖子聚类为事件集,并提取出事件中的关键词构成事件摘要。通过运用现实生活中的新浪微博数据作为实验数据集来测试所提出的方法,实验结果证明,基于影响力的微博新兴热点事件检测方法(IEED)能在早期高效地检测出微博中的新兴热点事件,具备一定的应用价值。 相似文献
7.
8.
9.
10.
基于事件的文本表示方法研究 总被引:1,自引:1,他引:0
在传统文本表示模型的研究基础上,针对叙事类文本,考虑以事件作为基本语义单元,并结合图结构表示的
特点,提出了一种基于事件的文本表示方法—事件网络。该方法利用事件和事件间的关系来表示文本,能够较大程
度地保留文本的结构信息及语义信息。实验结果表明,基于该方法的自动摘要取得了较好的效果。 相似文献
11.
提出一种适合于岩石裂隙类边缘提取的数字图像处理算法.通过分析破损岩石裂隙图像像素点区域特征,在经典的canny算子图像处理算法的基础上,提出了自适应加权中值滤波并结合高斯滤波针对不同区域像素进行预处理,算法能够根据裂隙类图像的区域特征自适应进行滤波.试验结果表明,本算法能够提高裂隙边缘检测的准确性,获得比较理想的边缘检测效果. 相似文献
12.
《计算机应用与软件》2016,(7)
为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法组合运算的特性,通过向量相加获得微博的向量表示以及正负情感向量;最后,通过计算微博向量和正负情感向量的相似度判断微博的情感倾向。在NLP&CC2012数据上进行实验,结果表明,该方法能够有效识别微博的情感倾向,较传统的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分别提高了23%和26%。 相似文献
13.
《计算机应用与软件》2016,(3)
在微博热点话题发现中,微博文本短、词量少、时效性高,传统的话题检测方法不再适用。针对这些新的特点,提出一种基于微博文本和元数据的话题发现方法。首先利用微博发布时间、用户信息、微博转发评论等元数据构造描述微博词汇能量的复合权值,进而提取出话题的主题词汇,然后基于上下文关系构造主题词汇簇,最后对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关微博文本。在真实微博数据上的实验表明,该方法能有效发现热门话题,提高话题检测的准确率和查全率。 相似文献
14.
《计算机应用与软件》2016,(12)
针对传统特征码基于程序二进制文本的提取方法,提出一种对于安卓应用程序Java源码进行特征提取的方法。该方法通过使用谷歌距离计算源码中关键词如API调用、安卓权限和常用参数之间的相关度,挖掘安卓恶意软件源码中常用的关键词,将其按照相似度分类。然后与正常软件中的关键词进行对比实验,得到安卓恶意软件的特征。该方法打破了以往依靠文本上下文环境记录病毒特征的常规方法,结合整个病毒软件操作环境形成特征库,记录下病毒的行为作为特征。实验证明,该方法是行之有效的。 相似文献
15.
《计算机应用与软件》2015,(10)
微博文本长度短,网络用语层出不穷,传统方法在微博事件追踪中忽略了博文语义信息,导致追踪效果不够理想。针对该问题,提出一种基于维基知识的微博事件追踪方法。首先,定义维基词条的强相关实体和别名实体,并将维基知识表示为五元组形式。然后,构建词语空间到维基实体空间的映射来表示初始事件向量及后续博文向量。最后,计算博文向量与初始事件向量之间的语义相似度,并依据设定阈值进行判决,从而完成事件追踪。实验结果表明,相比传统方法,该方法可以充分利用维基知识语义信息,有效提高微博事件追踪的性能。 相似文献
16.
《计算机应用与软件》2015,(7)
在分析传统短文本主题词提取算法的基础上,综合考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法PWSWE(Personal weibo subject word extraction algorithm)。该算法采用增量式的提取模式,首先引进由微博转帖、评论和赞数组成的流行度概念;其次对耦合、时序和流行度进行串行相似度计算;再次针对关键词特征值离散现象,对传统TF-IDF函数进行改进;最后综合以上提取结果并进行相应地处理得到最终的主题词。实验结果证明该算法提取的主题词具有较高的准确率和覆盖率。 相似文献
17.
《计算机应用与软件》2015,(11)
微博作为发展最迅猛的信息传播平台,每天都会产生大量数据,迅速增长的数据对数据处理提出了新的要求。针对微博数据特点,对VSM模型进行改进,并在MapReduce平台上,设计微博热点话题发现并行模糊C均值(HTD-PFCM)算法。实验结果表明,基于改进VSM模型的HTD-PFCM算法具有良好的加速比,并且能够更高效地处理微博数据,发现微博热点话题。 相似文献
18.
《计算机应用与软件》2016,(2)
近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。 相似文献
19.
《计算机应用与软件》2016,(11)
微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策具有重要意义。用户兴趣、微博作者影响力及微博内容等信息均影响信息传播过程。转发行为预测的挑战性问题在于如何捕获更多有意义的影响因素以提高预测性能。提出基于混合特征学习的转发预测方法,该方法首先引入并分析了局部社会影响力特征、用户特征、微博内容特征的计算方法;接着,基于分类器建立预测模型;最后,比较了不同类型微博的转发预测效果。在新浪微博平台数据的实验结果表明,局部社会影响力特征、用户特征、微博内容特征都对转发预测有较大影响,其中微博内容特征的影响最大。随机森林预测效果最好,准确率达到83.1%;与朴素贝叶斯、逻辑回归、支持向量机模型相比,准确率平均提高约7.4%,最高提高约10.8%。另外,该方法对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。 相似文献