首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
《软件工程师》2017,(9):15-17
随着社交媒体的发展,微博为人们提供的服务正在极大地改变着人们使用互联网的习惯,然而微博上用户发表的大量信息,以及高频率的信息更新,使得用户面临信息过载的问题而无法快速获取他感兴趣的信息。推荐系统是解决此问题的一种很好的方法,它是通过研究用户已有数据来发掘用户兴趣,从而为用户推荐可能感兴趣的对象,如产品、网页、微博等。本文介绍了一种基于张量分解技术的微博推荐算法来预测用户对微博的兴趣度,同时考虑用户与微博、用户与微博发布者影响因素,以及微博与微博发布者的影响因素,提高了已有算法的准确度。  相似文献   

2.
束珏  成卫青  邓聪 《计算机应用》2016,36(2):460-464
针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(ICST-WSNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%,比ICST-WSNB提高了6.48%,召回率以及F-值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。  相似文献   

3.
现有微博好友推荐算法使用的用户信息比较单一,不能充分利用微博用户信息来刻画用户特征,导致推荐效果不理想。为解决该问题,在综合分析用户标签信息、内容信息、交互信息以及社交拓扑信息的基础上,通过计算主题相关度、兴趣相关度、用户亲密度进行特征挖掘,并采用K最近邻分类算法为目标用户进行微博好友推荐。在新浪微博真实用户数据集上的实验结果表明,该算法的准确率、召回率、F1度量值分别为16.5%,26.8%,19.2%,推荐效果优于基于内容的推荐算法和基于社会过滤的推荐算法。  相似文献   

4.
:Android应用日益流行,但是Android广告库存在收集用户敏感信息(比如,IMEI等)并通过网络发送的行为。因此,本文提出了使用基于HTTP数据包目的和内容距离的层次化聚类算法的检测方法来检测敏感信息的泄露。该方法首先对HTTP数据包的目的和内容距离进行聚类,随后从聚类的结果中生成特征签名,并使用这些特征签名来检测是否存在敏感信息泄露。实验结果表明本文提出的检测方法可以检测到95%的敏感信息泄露,并只有2.7%的漏判率和2.3%的误判率。  相似文献   

5.
采用目前方法对电力用户用电特征进行识别时,存在识别准确率低、F1分数低和识别结果易受用电数据分帧长度影响的问题。为此提出基于电力大数据的电力用户用电特征识别模型,利用电力数据采集系统采集用户用电数据,并调节用电数据负荷曲线、数据标准化和数据降维,再利用K-means聚类算法提取预处理后优化用电数据的特征,将用电特征带入支持向量机中,根据分类结果实现电力用户用电特征的识别。实验结果表明,所提方法识别准确率高、F1分数高、识别结果不受用电数据分帧长度的影响。  相似文献   

6.
《软件工程师》2017,(3):14-17
当前,微博已经成长为世界上最有影响力的社交网络服务之一。随着微博的流行,微博上大量的数据也使得用户无法快速获取他感兴趣的信息。推荐系统是通过研究用户已有数据来发掘用户兴趣,从而为用户推荐可能感兴趣的对象,如产品、网页、微博等。本文介绍了一种基于协同过滤推荐技术的微博推荐算法,从影响用户兴趣度的隐性因素,以及微博互联网中的数据采集和预处理等角度对微博推荐进行研究。使用矩阵分解对隐性因素建模,在已有用户与微博、用户与微博发布者影响因素的基础上,提出微博与微博发布者影响因素,提高了原算法的准确度。  相似文献   

7.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

8.
传统转导支持向量机有效地利用了未标记样本,具有较高的分类准确率,但是计算复杂度较高。针对该不足,论文提出了一种基于核聚类的启发式转导支持向量机学习算法。首先将未标记样本利用核聚类算法进行划分,然后对划分后的每一簇样本标记为同一类别,最后根据传统的转导支持向量机算法进行新样本集合上的分类学习。所提方法通过对核聚类后同一簇未标记样本赋予同样的类别,极大地降低了传统转导支持向量机算法的计算复杂度。在MNIST手写阿拉伯数字识别数据集上的实验表明,所提算法较好地保持了传统转导支持向量机分类精度高的优势。  相似文献   

9.
针对微博消息往往会不同程度表现出性别倾向性的特点,从消息内容挖掘的角度出发提出了一种基于粗糙集的微博用户性别识别算法。设计了一种基于容差粗集的微博消息表示模型(TRSRM),有效地刻画微博消息的性别特征。实验结果表明,在1000个真实微博用户的微博消息的测试集下,所提模型的准确率比特征项频数表示模型平均提高了7%,取得了更好的识别效果。  相似文献   

10.
以用户击键特征为依据,提出了一种基于谱系聚类法的识别算法。该算法通过谱系聚类法对用户击键特征向量进行聚类分析,并形成各向量之间的谱系关系,从而由谱系关系来对击键特征向量进行识别。该算法的主要特点是使用欧氏距离进行分类,算法实现简单并且识别速度快。由于采用的聚类算法的简单性,其识别精度尚有待提高,因此该算法适用于击键识别的简单应用。  相似文献   

11.
虽然互联网广告效果的相关研究已取得较好成果,但仍缺乏对网页中各条目与广告间相互作用的深入研究,也缺乏不同因素作用下用户行为和广告效果的透彻分析,广告衡量标准也存在不足。因此,提出一种基于多模态特征融合的方法针对多重因素作用下的互联网广告效果与用户行为模式进行研究。通过对多模态特征进行定量分析,验证广告的吸引力效应,总结不同条件下的注意力效应;针对用户行为信息进行频繁模式挖掘,并结合数据特点提出DFBP算法定向挖掘用户最常见的浏览模式;提出将记忆力作为衡量广告质量的一项新指标,利用频繁模式改进Random Forest算法,融合多模态特征构建广告记忆力模型。实验结果表明,所构建的记忆力模型不仅准确率高达91.64%,且具有良好的鲁棒性。  相似文献   

12.
微博是信息共享的重要平台,同时,也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。  相似文献   

13.
Malicious online advertisement detection has attracted increasing attention in recent years in both academia and industry. The existing advertising blocking systems are vulnerable to the evolution of new attacks and can cause time latency issues by analyzing web content or querying remote servers. This article proposes a lightweight detection system for advertisement Uniform resource locators (URLs) detection, depending only on lexical‐based features. Deep learning algorithms are used for online advertising classification. After optimizing the deep neural network architecture, our proposed approach can achieve satisfactory results with false negative rate as low as 1.31%. We also design a novel unsupervised method for data clustering. With the implementation of AutoEncoder for feature preprocessing and t‐distributed stochastic neighbor embedding for clustering and visualization, our model outperforms other dimensionality reduction algorithms by generating clear clusterings for different URL families.  相似文献   

14.
As marketing communications proliferate, the ability to target the right audience for a message is of ever-increasing importance. Audience targeting practices for mass media, both in research and in industry, have tended to emphasize demographics, behavior, and other characteristics of customer groups as the bases for matching communications to audiences. These approaches overlook the opportunity to leverage the nature of advertising content, by automatically matching advertisement content to appropriate media channels and target audience. We model the semantic and sentiment content of advertisements with 103 variables. Based on these variables, a neural network classifier is used to assign advertisements to groups that represent different media channels. In its ability to classify unseen advertisements, the model outperforms the classification result generated by a random model, by 100–300%. This method also enables us to identify and describe divergent advertisement characteristics, by industry.  相似文献   

15.
为了评价微博的传播效果, 在分析影响用户转发行为因素的基础上, 提出了采用用户影响力、用户活跃度、兴趣相似度、微博内容重要性和用户亲密程度五项特征进行转发行为预测的SVM算法, 以及基于该算法的转发规模预测算法。最后给出了传播规模预测的评价方法。针对新浪微博用户数据的实验表明, 预测精度达到了86. 63%。  相似文献   

16.
杨武  李阳  卢玲 《计算机应用》2013,33(11):3076-3079
针对在海量微博数据中提取热点话题效率较低的问题,在对用户角色分类的基础上,提出了一种新的热点话题检测方法。首先,根据用户关注度进行用户角色定位,过滤掉部分用户的噪声数据;其次,采用结合语义相似度的TF-IDF函数计算特征权重,降低语义表达形式带来的误差;然后,用改进的Single-Pass聚类算法进行话题聚类,提取出微博话题;最后,根据微博转发数、评论数等对话题热度进行评估排序,从而发现热点话题。实验表明,所提出的方法使漏检率和误检率分别平均降低12.09%和2.37%,有效地提高了话题检测的正确率,验证了该方法的可行性。  相似文献   

17.
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。  相似文献   

18.
周先亭  黄文明  邓珍荣 《计算机科学》2017,44(7):191-196, 220
针对目前微博转发行为预测具有的特征选择任意性、准确率不高的问题,提出了融合异常检测与随机森林的微博转发行为预测方法。首先,提取用户基本特征、博文基本特征、博文内容主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过结合过滤式与封装式特征选择方法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利用袋外数据误差估计设置随机森林中的决策树和特征数。在真实新浪微博数据集上与基于逻辑回归、决策树、朴素贝叶斯、随机森林等算法的微博转发行为预测方法进行实验对比,结果表明所提方法的预测准确率(90.5%) 高于基准方法中最优的随机森林方法的预测准确率,同时验证了特征筛选方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号