首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 103 毫秒
1.
2.
微博用户性别分类旨在根据用户信息进行用户性别的识别。目前性别分类的相关研究主要针对单一类型的特征(文本特征或者社交特征)进行性别分类。与以往研究不同,文中提出了一种双通道LSTM(Long-Short Term Memory)模型,以充分结合文本特征(用户发表的微博文本)和社交特征(用户关注者的信息)进行用户性别分类方法的研究。首先,利用单通道LSTM模型分别学习两组文本特征,得到两种特征表示;然后,在神经网络中加入Merge层, 结合两种特征表示进行集成学习,以充分学习文本特征和社交特征之间的联系。实验结果表明,相对于传统的分类算法,双通道LSTM模型分类算法能够获得更好的用户性别分类效果。  相似文献   

3.
传统的情感分析方法没有充分地考虑微博自身的特点,在短小、不规范并且充满噪音的微博数据上难以取得良好的效果。结合微博内容本身的特点,提出了适于微博情感分类任务的情感语言模型。并进一步考虑了微博用户和社交网络的特征,基于微博转发网络上情感的传播和用户的信用值对提出的情感语言模型进行改进。在经过标注的新闻事件数据集上的实验结果表明,该方法能够有效地对新闻事件相关微博进行情感分类,在准确率等指标上都要优于传统的基于语言模型的方法,而且加入微博的网络特征和用户信用能明显地提高微博情感分类的效果。  相似文献   

4.
郁友琴  李弼程 《计算机科学》2021,48(12):219-225
微博用户兴趣发现对社交网络的个性化推荐和信息传播的正确引导具有重要意义,因此提出了一种基于多粒度文本特征表示的微博用户兴趣识别方法.首先,从主题层、词序层和词汇层3个方面对微博用户构造文本向量,利用LDA提取内容的主题特征,通过LSTM学习内容的语义特征,引入腾讯AI Lab开源词向量获取词义特征;然后,将以上3种特征向量拼接得到的多粒度文本特征表示矩阵输入CNN中,进行文本分类训练;最后,通过多端输出层实现对微博用户的兴趣识别.实验结果表明,多粒度特征表示模型的分类实验结果比单粒度特征表示模型的精准率、召回率和F1值分别提高了8%,12%和13%.基于对文本粗、细语义粒度和词粒度的综合考量,结合神经网络分类算法,多粒度特征表示模型的评价指标均优于单粒度特征表示模型.  相似文献   

5.
随着互联网的蓬勃发展,微博受到了越来越多用户的青睐,对微博用户性别的研究也逐渐成为学术界研究的热点。目前,对英文微博文本用户的性别识别已有研究,但针对中文微博用户性别识别的研究较少。从两性表达情绪的差异出发,提出了一种基于情绪特征的中文微博用户性别识别方法。本文考虑的情绪特征包括情绪词特征和与情绪相关的语言风格特征。实验结果表明,利用情绪特征提高了用户性别识别的精度。  相似文献   

6.
社交网络给每个社会中的人提供了自由表达个人情感、观点、兴趣、建议等言论的平台。用户在这些平台上发表的言论、所做的行为以及用户在平台上建立的社交圈子也给数据挖掘带来了新的数据和机会。提出了一种利用用户在微博上的公开数据信息实现对该用户的MBTI个性维度进行分类分析的方法。在该方法中,基于对用户微博数据的分析,提出了能够表征用户心理和行为的文本和非文本特征,然后采用三种机器学习的分类方法—提升决策树、支持向量机和贝叶斯逻辑递归来对微博用户的个性进行分类分析。实验结果表明,通过对微博数据的挖掘可以在不同MBTI个性维度上达到75%~90%的准确率。  相似文献   

7.
社交网络近年发展迅速,微博类社交网络的用户数目及规模急剧增大的同时也带来了诸多安全问题,为了保护用户的隐私和个人、集体的利益,需要针对这些恶意行为进行识别并对恶意用户进行处理。提出一种采用复合分类模型对用户进行分类的方法,并开发了一个对微博类社交网络用户进行分类的系统。通过研究用户的属性和行为特点,比较属性间的相关性,从两方面兼顾了分类的准确性和效率。  相似文献   

8.
智能手机和微博客户端强化了微博的媒体特性,实时发现微博话题具有现实意义。文章提出了一种基于关键字分类的中文微博热点话题发现方法,通过关键字对微博信息进行筛选和归类,以时间窗内词频和增长速度构造赋权函数提取主题词,词汇的同文本条件概率作为相似度判定依据,基于改进的单遍聚类算法进行主题词聚类。对系统运行结果分析表明,该方法可以实时有效地聚类发现微博热点话题。  相似文献   

9.
随着Web 2.0时代的兴起,微博作为一个新的信息分享平台已经成为人们生活中一个重要的信息来源和传播渠道。近年来针对微博的情感分类问题研究也越来越多地引起人们的关注。该文深入分析了传统的情感文本分类和微博情感分类在特征表示和特征筛选上存在的差异,针对目前微博情感分类在特征选择和使用上存在的缺陷,提出了三种简单但十分有效的特征选取和加入方法,包括词汇化主题特征、情感词内容特征和概率化的情感词倾向性特征。实验结果表明,通过使用该文提出的特征选择和特征加入方法,微博情感分类准确率由传统方法的73.17%提高到了84.17%,显著改善了微博情感分析的性能。  相似文献   

10.
微博是互联网舆论演化的重要平台,对微博进行情感分析,有助于及时掌握社会热点和舆论动态。由于微博数据内容简短、特征稀疏、富含新词等特征,微博情感分类依然是一个较难的任务。传统的文本情感分类方法主要基于情感词典或者机器学习等,但这些方法存在数据稀疏的问题,而且忽略了词的语义、语序等信息。为了解决上述问题,提出一种基于卷积神经网络的中文微博情感分类模型CNNSC,实验表明相比目前的主流方法,CNNSC的准确率提高了3.4%。  相似文献   

11.
互联网技术不断发展,新浪微博作为公开的网络社交平台拥有庞大的活跃用户. 然而由于用户数量庞大,且个人信息并不一定真实,造成训练样本打标困难. 本文采用了一种多视图tri-training的方法,构建三个不同的视图,利用这些视图中少量已打标样本和未打标样本不断重复互相训练三个不同的分类器,最后集成这三个分类器实现用户性别判断. 本文用真实用户数据进行实验,发现和单一视图分类器相比,使用多视图tri-training学习训练后的分类器准确性更好,且需要打标的样本更少.  相似文献   

12.
在垃圾邮件分类和朴素贝叶斯算法研究的基础上,提出了基于用户知识的贝叶斯分类算法.通过在分类过程中引入用户知识,克服了电子邮件内容是非结构化、解读依赖于用户的问题.实验证明,面向用户知识的贝叶斯分类算法在商业邮件分类中比普通贝叶斯算法有更好的性能.  相似文献   

13.
推荐系统的冷启动问题是近期的研究热点,而用户的活跃性判定是冷启动问题的基础。已有方法在判定用户的活跃性时,单纯地考虑了用户发表信息量,对社交媒体的社交关系及行为等特征利用不够。该文面向微博网络,提出了系统的用户活跃性判定方法,创新性主要体现在: (1)提出了微博网络影响用户活跃性的四类指标,包括用户背景、社交关系、发表内容质量及社交行为,避免了仅仅使用用户发表信息数量判定用户是否活跃的粗糙方式;(2)提出了用户活跃性判定流程,提出了基于四类指标的用户与用户集的差异度计算模型。以新浪微博为例,选取了学术研究、企业管理、教育、文化、军事五个领域的900个用户作为测试集,使用准确率P、召回率R及F值为评价指标,进行了实验分析和比较。结果显示,该文所提用户活跃性判定方法的准确率P、召回率R、F值比传统的判定方法分别提高了21%、13%和16%,将该文所提方法用于用户推荐,得到的P、R和F值比最新的方法分别提高了5%、2%和3%,验证了所提方法的有效性。  相似文献   

14.
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。  相似文献   

15.
人脸的性别分类   总被引:7,自引:0,他引:7  
人脸的性别分类是指根据人脸的图像判别其性别的模式识别问题.系统地研究了不同的特征提取方法和分类方法在性别分类问题上的性能,其中包括主分量分析(PCA)、Fishel线性鉴别分析(FLD)、最佳特征提取、Adaboost算法、支持向量机(SVM).给出了在9姿态人脸库、FERET人脸库和一个网络图片人脸库上的对比实验结果.实验表明人脸中的性别信息集中存在于某个子空间中,因此,在分类前对样本进行适当的压缩降维不但不会明显降低分类器的性能,而且可以大大减少分类的时间开销.最后介绍了将性别分类器与自动人脸检测和特征提取平台集成起来的基于人脸图像的性别判别系统.  相似文献   

16.
性别分类中头发特征提取方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
谢金融  卜佳俊 《计算机工程》2010,36(7):179-181,
针对人脸性别分类问题,提出基于头发特征的分类方法。对人脸重要外部特征之一的头发特征属性的提取与表示以及参数的选取进行分析与研究。在1 680张AR人脸图片上,利用头发特征模型对性别进行分类,将实验结果与基于人脸内部特征的分类结果进行比较,结果表明,采用头发特征的性别分类,其准确度获得平均7.5%的提升,最高准确率达96%。  相似文献   

17.
针对人脸性别分类问题,提出基于头发特征的分类方法。对人脸重要外部特征之一的头发特征属性的提取与表示以及参数的选取进行分析与研究。在1 680张AR人脸图片上,利用头发特征模型对性别进行分类,将实验结果与基于人脸内部特征的分类结果进行比较,结果表明,采用头发特征的性别分类,其准确度获得平均7.5%的提升,最高准确率达96%。  相似文献   

18.
李勇敢  周学广  孙艳  张焕国 《软件学报》2017,28(12):3183-3205
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论.  相似文献   

19.
汉语语料的自动分类   总被引:16,自引:3,他引:16  
语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展, 获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的, 在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念, 并利用不同类语料相关系数不同的特点进行分类, 取得了93%的大类分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号