首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

2.
是指从与司法案件相关的舆情信息中抽取与案件相关的句子作为摘要。在案件舆情文本中通常包含如涉案人员、案发地点等案件要素,这些案件要素对于摘要生成有着重要的指导意义。因此,针对案件舆情文本的特点,提出一种基于案件要素异构图的抽取式摘要模型。首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点和案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。在基于百度百科构建的案件舆情数据集上进行实验,结果表明,模型相比基于注意力机制融入案件要素的方法在ROUGE-L上取得14.22个百分点的提升。  相似文献   

3.
涉案舆情新闻文本摘要任务是从涉及特定案件的舆情新闻文本中,获取重要信息作为其简短摘要,因此对于相关人员快速掌控舆情态势具有重要作用。涉案舆情新闻文本摘要相比开放域文本摘要任务,通常涉及特定的案件要素,这些要素对摘要生成过程有重要的指导作用。因此,该文结合深度学习框架,提出了一种融入案件要素的涉案舆情新闻文本摘要方法。首先构建涉案舆情新闻摘要数据集并定义相关案件要素,然后通过注意力机制将案件要素信息融入新闻文本的词、句子双层编码过程中,生成带有案件要素信息的新闻文本表征,最后利用多特征分类层对句子进行分类。为了验证算法有效性,在构造的涉案舆情新闻摘要数据集上进行实验。实验结果表明,该方法相比基准模型取得了更好的效果,具有有效性和先进性。  相似文献   

4.
微博案件观点所涉方面的自动识别是了解互联网社交媒体新闻舆情的重要手段,但由于微博文本形式和内容均灵活多变,传统的方面识别方法通常只利用单一的正文或评论,使微博语义理解非常有限。针对涉案微博文本的方面识别问题开展研究,提出一种基于正文和评论交互注意的案件方面识别方法,通过融合社交媒体的上下文信息,实现对案件观点所涉方面的识别。首先基于Transformer框架对正文和评论分别进行编码;然后基于交互注意力机制,实现正文信息和评论信息的融合,并基于融合后的特征实现对评论文本案件方面的识别;最后基于12个案件构建的微博数据集进行实验,实验结果表明,采用交互注意力机制融合微博正文信息和评论信息可以显著提升案件方面识别的准确率,证明了所提方法的有效性。  相似文献   

5.
基于会话的推荐旨在根据匿名用户的短期交互数据来预测用户下一次交互项目. 现有图神经网络会话推荐模型大多在信息传播过程中平等对待所有邻居节点, 而没有区分他们对于中心节点的重要性, 从而给模型训练引入噪声. 此外, 随着图神经网络层数的增加, 过度平滑问题会随之产生. 针对上述问题, 本文提出结合跳跃连接的多层图注意力网络会话推荐模型(MGATSC). 首先利用图注意力网络学习邻居节点对于中心节点的重要性, 并堆叠多层网络以获取高阶邻居信息; 然后为了缓解过度平滑问题, 采用基于残差注意力机制的跳跃连接更新每层网络的节点嵌入, 并通过平均池化得到最终节点嵌入. 最后将反向位置嵌入融合到节点嵌入中, 经过预测层生成推荐. 在Tmall、Diginetica以及Retailrocket这3个公开数据集上的实验结果表明所提模型优于所有基线模型, 验证了模型的有效性与合理性.  相似文献   

6.
基于图神经网络的推荐算法通过从图中获取知识生成节点的特征表示,提高了推荐结果的可解释性.然而,随着推荐系统原始数据规模的不断扩大,大量包含语义信息的文本数据没有得到有效利用.同时图神经网络在融合图中邻居信息时没有区分关键节点,使得模型难以学习到高质量的实体特征,进而导致推荐质量下降.本文将图神经网络与语义模型相结合,提出一种融合语义信息与注意力的图神经网络推荐算法.该算法基于SpanBERT语义模型处理实体相关的文本信息,生成包含语义信息的特征嵌入,并将注意力机制引入到基于用户社交关系以及用户-项目交互的影响传播融合过程中,从而实现用户和项目两类实体特征的有效更新.在公开数据集上的对比实验结果表明,本文所提出的方法较现有基准方法在各项指标上均有所提升.  相似文献   

7.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

8.
涉案微博评论讽刺句检测的难点在于评论句字面语义与实际情感存在着较大差异,仅利用评论本身的特征难以判断,而涉案微博正文是案件的事实性描述,可以将其作为评论讽刺句检测的依据。为此,该文提出一种基于动态记忆案件描述的讽刺检测方法。首先利用动态记忆机制对微博正文进行案件特征抽取,其次利用注意力机制获得评论句特征,并与案件特征进行一致性比较,最后基于比较的特征进行讽刺句分类。实验结果表明,该文所提出方法的准确率和F1值分别达到85.65%和85.91%,较基线模型有较大提升,验证了案件描述对涉案微博评论讽刺句检测有很好的支撑作用。  相似文献   

9.
事实一致性是摘要内容与源文档内容的信息一致。最近的研究表明,文本摘要模型生成的摘要存在较多与原文事实不一致的问题,设计能够检测并评估出事实不一致错误的方法至关重要。目前基于自然语言推理的方法存在对源文档内容提取简单,推理信息交互不充分等问题。提出多注意力机制的文本摘要事实一致性评估模型,利用预训练模型微调的sentence-BERT模型挑选源文档中的关键句,然后将摘要句与关键句组合成句子对,输入BERT模型编码获得向量表示结合ESIM进行句子对的推理,利用图注意力网络完成推理信息的聚合,提高文本摘要事实一致性评估模型的准确率。实验结果表明,该算法与多个典型算法在在领域内常用的数据集进行实验比较,其可行性和有效性得到验证。  相似文献   

10.
11.
章建  李芳 《中文信息学报》2015,29(2):179-189
自动挖掘大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。该文提出了一种基于上下文的话题演化和话题关系抽取方法。分析发现,一个话题常和某些其他话题共现在多篇文档中,话题间的这种共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。该文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行实验,通过人工分析,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖掘话题之间的语义关系,在话题演化的基础上,显示话题关系的演化。  相似文献   

12.
伴随着信息技术的发展,传统纸质新闻逐渐向新媒体新闻转变.与此同时,近年来数据挖掘和自然语言处理等技术得到了极大的发展,使得对新闻所蕴含丰富语义和主题进行深度挖掘成为可能.然而,信息的超载使得主题可视化成为一个新的挑战,即如何以更好的方式来呈现海量互联网文本所蕴含的主题.隐形语义分析(LDA)是近年来兴起的主题建模方法,被当前学术界认为是主流的主题建模技术.文中首先介绍以LDA为主的文本概率主题建模技术及其发展,讨论了新闻主题建模特点;随后概括对比新闻主题可视化的若干方法,并对其进行分类,分析不同方法的适用性和局限性;最后对新闻主题可视化进行总结和展望.  相似文献   

13.
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务 单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。  相似文献   

14.
基于图分析方法和余弦相似性的主题检测研究   总被引:1,自引:0,他引:1  
如何从海量文本中自动提取有价值的主题信息已成为重要的技术挑战,当下的研究方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,将相关性理论与改进的图分析方法相结合,基于主题相关性和术语共现性对主题检测进行建模,高精度语义信息和潜在共现关系同时被用于主题检测,来发现重要且有意义的主题和趋势,仿真实验验证了本文模型的有效性。  相似文献   

15.
跨语言新闻话题发现是将互联网上报道相同事件的不同语言新闻进行自动归类,由于不同语言文本很难表示在同一特征空间下,对其共同话题的挖掘就比较困难。然而类似的新闻事件在不同语言文本表达上具有相同的新闻要素,这些要素之间关联能够体现出新闻事件的关联性,因此,针对汉越新闻话题发现问题,提出基于文档图聚类的汉越双语新闻话题发现方法。首先提取汉越新闻文本新闻要素,借助文本中要素相似度计算汉越文本相关度,构建汉越双语文本图模型,获得新闻文本相似度矩阵;然后,借助图模型中文本间的传播特点,采用随机游走算法对相似度矩阵进行调整,最后利用信息传递算法进行聚类。实验结果表明提出的方法取得了很好的效果。  相似文献   

16.
社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一。然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相似度不高。因此,提出新的社区主题计算方法,进而建立一种融合主题相似度权重的主题社区发现模型(TSWTCD)。利用文本信息提取主题,计算节点间主题相似度作为链接权重,将链接权重作为模块度参数划分社区。最后,根据提出新的社区主题计算方法得到社区主题。基于真实数据集的实验结果表明,TSWTCD模型提升了挖掘主题社区的质量。  相似文献   

17.
话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。  相似文献   

18.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

19.
社会网络平台上的社交短文本不同于网页或其他文本,它的特点是内容短、文本间存在转发评论等关系、话题复杂多样、与Web页面有链接关系、文本的作者间有关注关系等,现有的检索系统不能完全适应。该文提出一个基于多重增强图的社交短文本检索方法SSTR,它利用多重增强图算法对通过Indri获得的初步检索结果实现再排序优化和去重。多重增强图算法是基于马尔科夫链理论设计出的图模型算法,社交短文本中蕴含的文本、作者、词语等不同层面的关系通过不同的图层及图中节点之间的边来建模。三个层面的关系相互增强,通过多次迭代运算,最终寻求多个层面间相互关系所处的稳定状态。多重增强图构建时,短文本的相似度计算基于主题分析结果,克服了传统余弦相似度计算时TF-IDF权重在短文本上的局限性。实验结果表明,与Indri、reRank-COS和reRank-LDA相比,基于多重增强图算法的SSTR排序的效果更好,适合初始检索结果相对较多的应用场合。  相似文献   

20.
Recently, automation is considered vital in most fields since computing methods have a significant role in facilitating work such as automatic text summarization. However, most of the computing methods that are used in real systems are based on graph models, which are characterized by their simplicity and stability. Thus, this paper proposes an improved extractive text summarization algorithm based on both topic and graph models. The methodology of this work consists of two stages. First, the well-known TextRank algorithm is analyzed and its shortcomings are investigated. Then, an improved method is proposed with a new computational model of sentence weights. The experimental results were carried out on standard DUC2004 and DUC2006 datasets and compared to four text summarization methods. Finally, through experiments on the DUC2004 and DUC2006 datasets, our proposed improved graph model algorithm TG-SMR (Topic Graph-Summarizer) is compared to other text summarization systems. The experimental results prove that the proposed TG-SMR algorithm achieves higher ROUGE scores. It is foreseen that the TG-SMR algorithm will open a new horizon that concerns the performance of ROUGE evaluation indicators.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号