排序方式: 共有225条查询结果,搜索用时 562 毫秒
31.
涉案微博评价对象抽取旨在从微博评论中识别出用户评价的案件对象词项,有助于掌握大众对于特定案件不同方面的舆论。现有方法通常将评价对象抽取视为一个序列标注任务,但并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论。为此,本文提出一种基于关键词结构编码的序列标注模型,进行涉案微博评价对象抽取。首先从微博正文中获取多个案件关键词,并使用结构编码机制将其转换为关键词结构表征,然后将该表征通过交互注意力机制融入评论句子表征,最后利用条件随机场(Conditional random field, CRF)抽取评价对象词项。在两个案件的数据集上进行了实验,结果表明:相较于多个基线模型,本文方法性能得以提升,验证了所提方法的有效性。 相似文献
32.
地区官方微博中包含了大量相关当地的事件信息,聚合地区官方微博数据可以发掘当地的重要事件;结合地区微博数据地区别称、不同层级,地区标签属性突显等特征提出了基于后缀树算法的地区微博摘要技术研究。利用地区权值树和知网HowNet对地区微博数据进行预处理,将意思相近的词汇进行替换统一;利用后缀树聚类算法STC和奇异值分解SVD对地区微博进行聚类;结合地区微博特征对其综合打分,选取有代表性的微博句子生成摘要。实验验证了该方法的可行性,表明所提出的方法能够很好地识别出当地事件并生成可读性高的事件摘要。 相似文献
33.
首先分析微博文本新词出现规律,通过程度词发现微博新词,然后通过拓展的PMI算法,计算新词与情感基准词之间的点互信息值,根据点互信息值将新词分为褒贬2类后加入微博领域词典。接着构建基础情感词典,考虑到微博文本的独特性和汉语言特点,构建微博表情词典、否定词典、程度词词典、连词词典。最后结合情感词典与语义规则,通过与微博表情进行情感值加权的方式来对中文微博进行情感分析。通过对抓取的微博数据集进行测试,验证了本文提出的分析策略的有效性。 相似文献
34.
个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰。本文将语义相似度大的微博聚类以
方便用户浏览。主要研究工作如下:1. 使用python 中的jieba 分词对个人微博进行分词预处理并去除停用词;2. 将分词数据集
利用CBOW模型训练词语向量;3. 用词语向量表示个人微博句子向量;4. 个人微博句子向量表示成空间中的分布点,使用改进
的曼哈顿句子算法计算距离即个人微博间的相似度。5. 使用改进的clarans 算法聚类。实验表明本文的方法与传统聚类算法
如划分法、层次法、密度法等有明显的提高。 相似文献
35.
随着社交网络的不断发展,微博成为人们日常生活中分享观点和感情的重要平台,分析用户的情感倾向可以有效地应用于舆情控制、民意调查、商品推荐等工作.传统的深度学习算法在面对新的工作任务时,往往需要大量数据重新训练才能得到较好准确率.针对这一情况,提出了一种基于MAML(model-agnostic meta-learning... 相似文献
36.
针对目前微博推荐模型未考虑传播特征的问题,提出一种基于传播树的微博推荐模型。首先利用树结构对微博传播特征进行表示,由内容、时间和用户三方面特征构成树的节点,以微博的转发和评论关系作为树的边;然后基于节点间关联关系和层次关系分别计算待评估微博传播树与目标用户每棵微博传播树的传播路径相似度和传播层相似度,以此量化两棵传播树间的结构相似度;最后根据相似度大小对所有待评估微博进行排序,生成推荐列表,实现微博推荐。实验结果表明,与未考虑传播特征的微博推荐模型相比,该模型在准确率、召回率和F1值上分别提升13.0%、9.6%和10.7%,合理利用微博传播特征可以提升推荐结果的可靠性,增强用户体验感。 相似文献
37.
近年来微博炒作账户异军突起,采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序。传统的炒作账户发现主要采用特征分析方法,忽视了炒作账户的组织性和策划性,难以发现隐蔽性高的炒作账户。针对以上问题,充分考虑到炒作账户共同参与微博炒作的群体特性,将炒作群体发现问题转化为挖掘最大频繁项集问题,提出了一种基于最大频繁项集挖掘的炒作群体发现方法,能够找出多次共同参与炒作微博传播的账户群体。为了提高最大频繁项集挖掘的效率,结合研究背景以及事务数据库的特点,提出了一种基于迭代交集的最大频繁项集发现算法,采用基于二分查找的最大频繁候选项集筛选策略对事务数据库进行缩减,并利用多种方式减少事务间取交集的次数。最后通过实验对IIA算法的性能进行了评估,并在真实的新浪微博数据集上验证了炒作群体发现方法的有效性,实验结果表明利用该方法发现的炒作群体准确率高于90%,而且能发现传统特征分析方法难以识别的隐蔽炒作账户。 相似文献
38.
针对中文微博文本情感分类中每个样本最多只有两种有序情感标签的情形,提出了一种简单的多标签排序算法——TSMLR,该算法采用两步学习和两步分类的策略,通过学习情感标签之间的主次关系,对微博文本的情感进行分类并对情感标签进行排序。首先,将一个多标签排序问题转化为八个多类单标签分类问题,分别对主要情感标签和次要情感标签进行学习;然后,利用得到的分类模型对微博表达的情感进行两步分类,首先给出主要情感标签,再给出次要情感标签。通过在NLP&CC2014的中文微博文本情感分析评测数据集上进行实验,与校准标签排序方法(CLR)相比,TSMLR方法的准确度和平均精度分别提高了8.59%和9.28%,1-错误率相应下降了9.77%,而且TSMLR所需的训练时间相对较少。实验结果表明:TSMLR对标签之间顺序关系的学习能够有效提高对中文微博情感分类的准确率。 相似文献
39.
采用元胞自动机理论进行微博舆情传播的研究,设计微博元胞自动机模型结构,包括元胞状态、元胞空间、元胞邻域和演变规则。在微博舆情的倾向度演化中,定义了坚定性系数与影响系数,在不同的坚定性系数和影响系数分布下,进行了倾向度演化实验与分析。同时,对影响力较大的微博在倾向度演化中的作用,以及多邻域分布下倾向度的演化进行了研究。
相似文献
40.