首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
李培  翁伟  林琛 《中文信息学报》2016,30(3):143-151
新浪微博、腾讯微博等微博平台已经成为国内重要的网络媒体。随着海量的实时信息在微博上分享和传播,为每个用户提供更多方便,展现一目了然的实事资讯的任务已经迫在眉睫。这就需要在微博中理出重大事件的发展进程。该文中,我们将利用最小权重支配集和有向斯坦纳树在给定查询的微博数据集上生成故事线。该文的工作由三部分组成:第一部分是在Lucene检索出来的结果集上构建多视点图;其次,通过在图中寻找最小权重支配集来选出具有代表性的微博;最后,通过求解有向斯坦纳树问题来平滑地连接这些已挑选的微博,形成故事线。在实际数据集上的实验验证了该文提出系统的高效性和有效性。
  相似文献   

2.
针对现有微博事件抽取方法由于基于事件的内容特征,而忽略事件本身的社会属性与时间特征之间的关系,进而无法识别微博热点传播过程中关键事件的问题,提出了一种融合社会影响力和时间分布的微博关键事件抽取方法。首先通过建模社会影响力来刻画微博事件的重要性,然后融合微博事件演化过程中的时间特性以捕获事件在不同时间分布下的差异,最后抽取出不同时间分布下的微博关键事件。在真实数据集上的实验结果表明,所提方法能有效抽取微博热点中的关键事件,较随机选择、词频-逆文本频率(TF-IDF)、最小权重支配集以及度与聚集系数这四种方法在事件集的完整性指标ROUGE-1上在数据集1上分别提升了21%、18%、26%以及30%,在数据集2上分别提升了14%、2%、21%以及23%,抽取效果优于传统方法。  相似文献   

3.
针对关系抽取任务中句子依存树的信息利用率低和特征提取效果不佳的问题,提出了一种基于注意力引导的门控感知图卷积网络(Att-Gate-GCN)模型。首先,利用一种基于注意力机制的软剪枝策略,通过注意力机制为依存树中的边分配权重,以挖掘依存树中的有效信息,同时过滤无用信息;其次,构建一种门控感知图卷积网络(GCN)结构,通过门控机制增加特征感知能力,以获取更鲁棒的关系特征,同时结合依存树中的局部与非局部依赖特征,进一步抽取关键信息;最后,将关键信息输入分类器得到关系类别标签。实验结果表明,相较于原始的图卷积网络关系抽取模型,所提模型在SemEval2010-Task8数据集和KBP37数据集上F1值分别有2.2个百分点和3.8个百分点的提升,能够更充分地利用有效信息,提升了模型的关系抽取能力。  相似文献   

4.
随着社交网络的不断发展,微博成为人们日常生活中分享观点和感情的重要平台,分析用户的情感倾向可以有效地应用于舆情控制、民意调查、商品推荐等工作。传统的深度学习算法在面对新的工作任务时,往往需要大量数据重新训练才能得到较好准确率。针对这一情况,提出了一种基于MAML(model-agnostic meta-learning)与BiLSTM(双向长短时记忆网络)的微博负面情感多分类方法。对微博文本进行词向量化表示,构建MAML与BiLSTM结合的模型,其中BiLSTM实现对微博负面情感的分类,通过随机梯度下降更新参数;MAML中的元学习器则通过计算多次训练的损失总和,进行第二次梯度下降,更新元学习器参数。通过更新后得到的元学习器可以在面对新的微博负面情感分类任务时快速迭代。实验结果表明:相较于目前流行的模型,在微博负面情感数据集上,准确率、召回率和F1值分别提高了1.68个百分点、2.86个百分点和2.27个百分点。  相似文献   

5.
肖锐  刘明义  涂志莹  王忠杰 《计算机应用》2022,42(11):3513-3519
用户的社交媒体中蕴含着他们过去的个人经历和潜在的生活规律,研究其规律对预测用户未来的行为以及对用户进行个性化推荐有很大的价值。通过收集微博数据,定义了11种类型的事件,并提出了一个三阶段的Pipeline的系统,利用BERT预训练模型,分别在三个阶段使用BERT+BiLSTM+Attention、BERT+FullConnect、BERT+BiLSTM+CRF方法进行个人事件检测。从微博文本中抽取出该文本是否包含定义的事件、包含的事件类型、每种事件包含的元素等信息,具体元素为Subject(事件主语)、Object(事件元素)、Time(事件发生时间)、Place(事件发生的地点)和Tense(事件发生的时态),从而探究用户个人时间轴上的事件变化规律来预测个人事件。在收集的真实用户微博数据集上进行实验,并与逻辑回归、朴素贝叶斯、随机森林、决策树等分类算法进行对比分析。实验结果表明,三个阶段中的BERT+BiLSTM+Attention、BERT+FullConnect和BERT+BiLSTM+CRF方法均取得了最高的F1值,验证了所提方法的有效性。最后根据所提方法抽取出的事件和其中的时间信息可视化地构建了用户的个人事件时间轴。  相似文献   

6.
李康康  张静 《计算机应用》2021,41(9):2504-2509
图像描述任务是图像理解的一个重要分支,它不仅要求能够正确识别图像的内容,还要求能够生成在语法和语义上正确的句子。传统的基于编码器-解码器的模型不能充分利用图像特征并且解码方式单一。针对这些问题,提出一种基于注意力机制的多层次编码和解码的图像描述模型。首先使用Faster R-CNN(Faster Region-based Convolutional Neural Network)提取图像特征,然后采用Transformer提取图像的3种高层次特征,并利用金字塔型的融合方式对特征进行有效融合,最后构建3个长短期记忆(LSTM)网络对不同层次特征进行层次化解码。在解码部分,利用软注意力机制使得模型能够关注当前步骤所需要的重要信息。在MSCOCO大型数据集上进行实验,利用多种指标(BLEU、METEOR、ROUGE-L、CIDEr)对模型进行评价,该模型在指标BLEU-4、METEOR和CIDEr上相较于Recall(Recall what you see)模型分别提升了2.5个百分点、2.6个百分点和8.8个百分点;相较于HAF(Hierarchical Attention-based Fusion)模型分别提升了1.2个百分点、0.5个百分点和3.5个百分点。此外,通过可视化生成的描述语句可以看出,所提出模型所生成的描述语句能够准确反映图像内容。  相似文献   

7.
李勇敢  周学广  孙艳  张焕国 《软件学报》2017,28(12):3183-3205
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论.  相似文献   

8.
当前,突发热点事件的传播日益迅猛与广泛.如何通过事件抽取准确快速地抽取出事件触发词及其事件元素,有助于决策者分析舆情态势、引导社会舆论.针对现有事件抽取方法多是从单个句子中抽取事件元素,而突发热点事件的事件元素往往分布在多个句子当中的问题,提出了一种基于图注意力网络的突发热点事件联合抽取方法,该方法分为三个阶段:基于TextRank的事件句抽取、基于图注意力网络的篇章级事件联合抽取、突发热点事件补全.在抽取出新闻主旨事件以后对整篇新闻做事件抽取,利用候选事件与新闻主旨事件的事件向量相似度以及事件论元相似度对该新闻主旨事件进行补全.实验结果表明,该方法在DUEE1.0数据集上进行触发词抽取和论元角色抽取任务时的F1指标分别达到83.2%、59.1%;在中文突发事件语料库上进行触发词抽取和论元角色抽取任务时的F1指标分别达到82.7%、58.7%,验证了模型的合理性和有效性.  相似文献   

9.
自主研制微博爬虫系统WeiboCrawler。针对2013年3月爆发的甲型H7N9流感疫情,使用该系统抓取了新浪微博中与该主题相关的数据集,包括用户信息、原创和转发博文信息。以原创博文为根节点,基于转发关系采用递归方法构造博文转发树,为了严格、清晰地描述微博信息传播过程,对博文转发树进行形式化定义,进而研究微博信息传播过程及转发树的大小、深度、宽度等结构特性。结果表明:博文转发树的结构特性分布符合长尾分布,博文转发树具有深度小、密度大的结构特性;博文流行程度取决于博文转发树的宽度,而与博文转发树的深度无关;在博文转发的不同阶段,信息传播表现出相似的传播特性。考虑微博平台信息传播的特点以及博文转发树的结构特性,结合Galton-Watson分支过程,给出一种新的信息流传播模型,使用该模型对博文转发树的大小、深度、宽度三项结构特性进行仿真,发现该模型能较准确地体现信息传播的结构特性。  相似文献   

10.
在自然语言处理(NLP)的细粒度情感分析问题中,为探索携带结构偏差的预训练语言模型(PLM)对端到端式情感三元组抽取任务的影响,解决方面语义特征依赖容错率低的问题,结合方面感知注意力机制和图卷积网络(GCN),提出用于方面情感三元组抽取任务的方面感知注意力增强图卷积网络(AE-GCN)模型。首先,在方面情感三元组抽取任务中引入多种类型的关系;其次,采用双仿射注意力机制将这些关系嵌入句子中单词之间的相邻张量,并引入方面感知注意力机制以获取句子注意力评分矩阵,深入挖掘与方面相关的语义特征;再次,GCN通过将单词和关系相邻张量分别视为边和节点,将句子转换为多通道图以学习关系感知节点表示;最后,使用一种有效的词对表示细化策略确定词对是否匹配,以考虑方面和意见抽取的隐含结果。在ASTE-D1基准数据集上的实验结果表明,所提模型在14res、14lap、15res和16res子数据集上的F1值相较于增强型多通道图卷积网络(EMC-GCN)模型提升了0.20、0.21、1.25和0.26个百分点;在ASTE-D2基准数据集上,所提模型在14lap、15res和16res子数据集上的F1值相较于EMC...  相似文献   

11.
12.
在故事森林模型基础上提出了事件演变轨迹模型。对比故事森林模型,事件演变轨迹模型具备在涵盖不同主题和包含大量冗余信息的海量新闻简报中准确、快速提取热点事件的能力。同时,在分析和理解上下文语义的基础上,以实时在线的方式描述事件的演变过程,在不破坏已有演变结构的基础上,确保用户的浏览体验。基于32?GB的中文新闻简报数据对模型进行了评估和试点用户体验研究。结果表明,事件演变轨迹在准确识别热点事件并将新闻简报组织成符合读者阅读逻辑方面具有更强的能力。  相似文献   

13.
赵礼峰  王小龙 《计算机应用》2014,34(12):3414-3416
Steiner最小树问题是一个NP完全问题,被广泛应用在通信网络中点到多点的路由选择。为了实现更多链路的共享,减少所求Steiner树的费用,提出了一种基于加权节点求解Steiner树的启发式(NWMPH)算法。该算法构造了非正则点的权值公式,给每一个非正则点赋权值,根据权值对链路的费用进行修正,通过修正费用最短路径依次把所有的正则点连接起来,得到包含所有正则点的最小树。对STEINLIB标准数据集中的部分数据进行计算,结果表明: NWMPH算法与MPH算法所用时间基本相同,得到的Steiner树费用优于MPH算法;NWMPH算法比KBMPH算法所用时间少,得到的Steiner树费用绝大多数优于KBMPH算法。  相似文献   

14.
社会网络中海量、无序且碎片化的新闻数据,使得人们无法从细粒度感知新闻事件,更无法多视角把握事件发展脉络。为了解决这个问题,该文提出基于命名实体敏感的分层新闻故事线生成方法,在无监督的情况下,充分利用新闻信息构造层次化、多视点的事件脉络。该方法主要通过以下3个步骤实现:(1)基于事件主题信息与隐式语义信息相结合的方法检测事件;(2)基于多维语义信息的社区检测算法划分主题事件的子事件;(3)基于多视点信息构造事件发展的脉络。在真实数据集上的实验结果表明,该方法在三个步骤比基线方法均有提高,其中在构造事件发展脉络阶段,该方法在理解性、概括性和准确性指标上分别高出0.44、0.11和0.50。  相似文献   

15.
现代市场经济快速发展的同时也伴随着较高的风险,通过对地区投资情况提前预测,能够提前发现投资风险,为国家、企业的投资决策提供参考。针对宏观经济预测中统计数据滞后和内部关系复杂的问题,提出融合情感分析和深度学习的预测方法(SA-LSTM)。首先考虑微博的强时效性,确定了微博爬取和情感分析的方法,得到微博情感分析的分值,进而结合政府统计的结构化经济指标和长短期记忆神经网络,实现地区投资总额预测。经过实际数据计算验证,在四个数据集上,与不加入微博情感分析的LSTM网络相比,SA-LSTM能够降低预测相对误差4.95,0.92,1.21,0.66个百分点;与差分自回归移动平均模型(ARIMA)、线性回归(LR)、反向传播(BP)神经网络、长短期记忆(LSTM)网络四个方法中的最优方法相比能够降低相对误差0.06,0.92,0.94,0.66个百分点。另外,SA-LSTM在多个时间片上,预测相对误差的方差最小,表明所提方法具有很好的鲁棒性,对数据抖动有良好的适应性。  相似文献   

16.
科普文本分类是将科普文章按照科普分类体系进行划分的任务。针对科普文章篇幅超过千字,模型难以聚焦关键信息,造成传统模型分类性能不佳的问题,提出一种结合知识图谱进行两级筛选的科普长文本分类模型,来减少主题无关信息的干扰,提升模型的分类性能。首先,采用四步法构建科普领域的知识图谱;然后,将该知识图谱作为距离监督器,并通过训练句子过滤器来过滤掉无关信息;最后,使用注意力机制对过滤后的句子集做进一步的信息筛选,并实现基于注意力的主题分类模型。在所构建的科普文本分类数据集(PSCD)上的实验结果表明,基于领域知识图谱的知识增强的文本分类算法模型具有更高的F1-Score,相较于TextCNN模型和BERT模型,在F1-Score上分别提升了2.88个百分点和1.88个百分点,验证了知识图谱对于长文本信息筛选的有效性。  相似文献   

17.
This paper proposes three methods of association analysis that address two challenges of Big Data: capturing relatedness among real-world events in high data volumes, and modeling similar events that are described disparately under high data variability. The proposed methods take as input a set of geotemporally-encoded text streams about violent events called “storylines”. These storylines are associated for two purposes: to investigate if an event could occur again, and to measure influence, i.e., how one event could help explain the occurrence of another. The first proposed method, Distance-based Bayesian Inference, uses spatial distance to relate similar events that are described differently, addressing the challenge of high variability. The second and third methods, Spatial Association Index and Spatio-logical Inference, measure the influence of storylines in different locations, dealing with the high-volume challenge. Extensive experiments on social unrest in Mexico and wars in the Middle East showed that these methods can achieve precision and recall as high as 80 % in retrieval tasks that use both keywords and geospatial information as search criteria. In addition, the experiments demonstrated high effectiveness in uncovering real-world storylines for exploratory analysis.  相似文献   

18.
王元龙  刘晓敏  张虎 《计算机应用》2022,42(7):1979-1984
要真正理解一段语篇,在阅读理解过程对原文主旨线索的把握是非常重要的。针对机器阅读理解中主旨线索类型的问题,提出了基于事件表示的机器阅读理解分析方法。首先,通过线索短语从阅读材料中抽取篇章事件图,其中包括事件的表示、事件要素的抽取和事件关系的抽取等;然后,综合考虑事件的时间要素、情感要素以及每个词在文档中的重要性,采用TextRank算法选出线索相关的事件;最后,依据所选出的线索事件构建问题的答案。在收集了339道线索类题组成的测试集上,实验结果表明所提方法在BLEU和CIDEr评价指标上与基于TextRank算法的句子排序方法相比均有所提升,具体来说,BLEU-4指标提升了4.1个百分点,CIDEr指标提升了9个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号