首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 144 毫秒
1.
针对微博平台上的垃圾用户甄别问题,本文提出了基于微博重复发送行为的垃圾用户行为建模和甄别算法。在真实微博垃圾用户数据分析的基础上,本建模方法综合考虑了微博垃圾用户的行为信息、社交网络信息和文本信息,从不同的角度对垃圾用户进行了分析和建模。在真实数据集上的实验证明了方法的有效性,并且对模型中若干参数进行了优化,同时也分析了垃圾用户行为信息、社交网络信息和文本信息对模型的影响程度。  相似文献   

2.
论坛社区用户时空特征建模与挖掘   总被引:1,自引:0,他引:1  
用户建模是提供个性化服务的基础工作.结合数据挖掘在论坛社区系统中的运用,把言论行为建模为数据记录,提出基于时空特征属性的用户模型(spatiotemporal feature based user model)表示和挖掘算法.不同于传统的基于文本特征的用户模型,SFBUM提供了量化的用户在时间和空间维度上行为特征的描述,并通过实验表明该模型的稳定性以及在社区用户角色分类上的运用.  相似文献   

3.
微博用户可以分为个人用户和非个人用户两种类型。在微博中对这两种用户类型进行自动分类是智能广告、用户个性分析等应用的一项基本任务。针对该任务,提出了一种基于机器学习的自动分类方法。该方法的特色在于,不需要人工标注样本,而是利用微博中认证用户类型的语料作为训练样本构建分类器,用于对非认证用户类型进行分类。具体实现中,将用户名和用户发表的微博文本作为表示用户的样本,使用基于最大熵算法进行用户分类。实验表明这种利用认证用户对非认证用户进行类型分类的方法能够获得较好的效果。  相似文献   

4.
微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征,该文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明,该方法的预测准确性达到96.6%,提升幅度最高达到12.14%。  相似文献   

5.
随着微博用户的增多,微博平台的信息更新频繁,针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。首先从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题;然后,采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能够有效的发现话题。实验表明,该算法较传统文本聚类算法的综合指标F值有明显提高。  相似文献   

6.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

7.
微博是个人和组织用户分享或获取简短实时信息的重要社交平台,微博文本自动生成技术能帮助用户在微博平台上快速实现各种社交意图。为辅助用户发表博文并表达社交意图,提出一种基于用户意图的微博文本生成技术,以挖掘提取微博文本特征,并在给定微博主题的条件下生成与用户意图相一致的微博文本。采用预训练语言模型与微调相结合的方法,在预训练语言模型GPT2上实现联合主题和用户意图的文本控制生成,以及具备用户对话功能的文本预测生成。实验结果表明,该技术生成的文本具有较高的可读性且符合微博文本语言风格,结合主题和5类用户意图的生成样本人工评分达77分以上。  相似文献   

8.
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

9.
当前,微博意见领袖识别的研究方法纷繁多样,常见的方法有:对用户的个性化特征进行综合分析的方法和基于社交网络结构的分析方法。这些方法大多只考虑了用户的特征,未考虑用户之间的互动行为,或者未考虑 微博文本的情感因素。为此,提出了一种基于微博情感分析的微博意见领袖识别方法。首先,在基于合成情感词典的词频统计结果的基础上,利用支持向量机对微博博文进行情感分析;然后,将变异系数法用于微博属性权重的计算,以体现微博的影响力;最后,利用改进的PageRank算法在微博用户转发关系网络中预测用户影响力的扩散过程,计算用户最终影响力的大小。在新浪微博数据集上通过实验评测该方法的性能,结果表明该方法能够有效提高识别性能。  相似文献   

10.
吴钟强    张耀文    商琳   《智能系统学报》2017,12(5):745-751
情感分析也称为意见挖掘,是对文本中所包含的情感倾向进行分析的技术。目前很多情感分析工作都是基于纯文本的。而在微博上,除了文本,大量的图片信息也蕴含了丰富的情感信息。本文提出了一种基于文本和图像的多模态分类算法,通过使用潜在语义分析,将文本特征和图像特征分别映射到同维度下的语义空间,得到各自的语义特征,并用SVM-2K进行分类。利用新浪微博热门微博栏目下爬取的文字和配图的微博数据进行了实验。实验结果表明,通过融合文本和图像的语义特征,情感分类的效果好于单独使用文本特征或者图像特征。  相似文献   

11.
针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。  相似文献   

12.
Weblogs have emerged as a new communication and publication medium on the Internet for diffusing the latest useful information. Providing value-added mobile services, such as blog articles, is increasingly important to attract mobile users to mobile commerce, in order to benefit from the proliferation and convenience of using mobile devices to receive information any time and anywhere. However, there are a tremendous number of blog articles, and mobile users generally have difficulty in browsing weblogs owing to the limitations of mobile devices. Accordingly, providing mobile users with blog articles that suit their particular interests is an important issue. Very little research, however, has focused on this issue.In this work, we propose a novel Customized Content Service on a mobile device (m-CCS) to filter and push blog articles to mobile users. The m-CCS includes a novel forecasting approach to predict the latest popular blog topics based on the trend of time-sensitive popularity of weblogs. Mobile users may, however, have different interests regarding the latest popular blog topics. Thus, the m-CCS further analyzes the mobile users’ browsing logs to determine their interests, which are then combined with the latest popular blog topics to derive their preferred blog topics and articles. A novel hybrid approach is proposed to recommend blog articles by integrating personalized popularity of topic clusters, item-based collaborative filtering (CF) and attention degree (click times) of blog articles. The experiment result demonstrates that the m-CCS system can effectively recommend mobile users’ desired blog articles with respect to both popularity and personal interests.  相似文献   

13.
A study investigating the accuracy of interpersonal perception in Internet Bulletin Board Systems (BBS) and the variables that affect the accuracy were conducted in two phases: in the phase one, 58 participants were selected from the BBS which was built on the Internet in advance. During the phase two, participants were requested to complete the Myers–Briggs Type Indicator (MBTI) to assess their personalities, and to choose another member in the BBS as their “target”. The assessment packets were then administered to the participants in the following order: the demographic and Internet use survey, the MBTI used by the judge to assess their target’s personality, and the relationship survey between judge and target. The results showed that 76.7% participants made the correct judgment on two to three out of four dimensions of the personality type. The correlation analysis indicated that the variables affected the accuracy were from four aspects: judge, target, relationship and similarity. The binary logistic regression analysis showed that the target’s personality, the judge’s education level, the similarity between them, the stereotypes and projection played important roles on the accuracy. Possibilities for future research on this issue are also briefly discussed.  相似文献   

14.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

15.
命名实体是文本中承载信息的重要单元,正确分析存在歧义的命名实体对文本的理解起着关键性作用。该文提出基于多源知识和Ranking SVM的中文微博命名实体链接,结合同义词词典、百科资源等知识产生初始候选实体集合,同时从文本中抽取多种组合特征,利用Ranking SVM对候选实体集合进行排序,从而得到目标实体。在NLP&CC2014中文微博实体链接评测数据集上进行了实验,获得了89.40%的平均准确率,与NLP&CC2014中文微博实体链接评测取得最好成绩的系统相比,本文的系统具有一定的优势。
  相似文献   

16.
In Online Social Networks (OSNs), users interact with each other by sharing their personal information. One of the concerns in OSNs is how user privacy is protected since the OSN providers have full control over users’ data. The OSN providers typically store users’ information permanently; the privacy controls embedded in OSNs offer few options to users for customizing and managing the dissipation of their data over the network. In this paper, we propose an efficient privacy protection framework for OSNs that can be used to protect the privacy of users’ data and their online social relationships from third parties. The recommended framework shifts the control over data sharing back to the users by providing them with flexible and dynamic access policies. We employ a public-key broadcast encryption scheme as the cryptographic tool for managing information sharing with a subset of a user’s friends. The privacy and complexity evaluations show the superiority of our approach over previous.  相似文献   

17.
束珏  成卫青  邓聪 《计算机应用》2016,36(2):460-464
针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(ICST-WSNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%,比ICST-WSNB提高了6.48%,召回率以及F-值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。  相似文献   

18.
张瑞  金志刚  王颖 《计算机科学》2016,43(4):192-196, 230
针对已有的标签推荐模型在实际微博场景运用中存在的多样性、相关性较差等不足,提出了一种基于混合粒度的标签推荐模型。将微博用户的可分析资源分解成由用户信息、标签和微博正文组成的混合粒度,在不同粒度上分别进行个人信息过滤及个性标签分析,从而计算用户标签的熵值与内联度和分类标注标签词汇,提取微博正文主题等,最终为用户推荐具有较强关联性的个性化标签。与一般LDA模型的对比实验证明,该模型可以有效解决新用户的冷启动、标签推荐的准确度等问题,同时保证了推荐的多样性。  相似文献   

19.
Technology-acceptance tests are traditionally conducted after users have obtained at least a certain amount of experience with a technology. Taking college students who had no real interaction with a prospective eportfolio system, this study investigated both their perceptions of the system and the perceptions’ association with attitude towards and intention of using the system. A pre-implementation value-assessment model was proposed, and the results indicate that for prospective users, attitudes appear to have the strongest significant direct effect on usage intentions. Perceived functional value serves as the preliminary conditions that mediate the effect of the perceived epistemic value on attitude. Perceived contextual value influences users’ attitude and intention via the mediation of perceived epistemic value and perceived functional value. This model provides a systemic understanding of prospective users’ perceptions of the system, and such an understanding can help change agents to examine their assumptions about prospective users’ perceptions concerning the value and acceptance of a new technology.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号