首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
文本可视分析是一个跨学科的领域,涉及文本数据挖掘、计算机图形图像以及人机交互等各方面的知识和技术,可以帮助用户以可视分析的手段交互地分析海量的文本数据内容,提供及时的反馈,发现异常和规则,提取知识以及获取洞察.已被应用在国土安全、商业智能分析以及金融分析等很多不同的领域,受到国内外学术界、工业界以及政府部门越来越多的重视.文中首先简要地介绍了文本可视分析的一般流程;然后系统地介绍了典型的文本分析和可视化技术,并着重讨论这2类研究的最新技术以及发展;最后对全文进行了总结并展望了文本可视分析面临的四大研究挑战:海量数据规模、复杂数据的不确定性、数据融合以及人机交互.  相似文献   

2.
传统的历史与文学研究通常是案例式地分析具体的文学作品与词人的背景.文学作品的内容、情感与含义和作者的生平经历、师承流派、家国时代背景息息相关,传统的分析方法难以直观地了解以上各项内容的关联.以宋词作为文学作品代表进行分析,提出了一套基于文本关联与时空可视分析的方法.它支持文学研究者从词人的生平轨迹和不同生活年代的背景进行分析与对比,探索不同年代、不同经历的词作在文本主题上的相关性与独特性.并且,通过对宋词文本的音律情感可视化与文本意象的关联分析,让文学研究者拥有多维度的视角去了解宋词文本的特性,不仅仅是分析文本本身,而是支持词作与词人的年谱和时代背景进行交叉验证.与宋代文学研究专家合作,通过对他们进行用户实验研究,证明了该方法可以有效地帮助专家对词人的文学生涯及作品进行深入分析,并探索出新的研究视角,为今后的研究提供了更广阔的分析基础.  相似文献   

3.
分析社交媒体中关联主题在不同社会群体之间的流动模式有助于理解观点、信息和思想的传递.已有的主题流动分析的工作大多是基于主题模型的,只能通过查看包含该主题的文本来分析主题流动的原因.这些文本数据量大且结构复杂,难以分析.为了解决这一问题,使用概念对主题内部的内容进行概括,提出了基于概念的动态文本可视分析方法,用于展示主题内容的变化模式,帮助分析主题流动的原因.该方法使用流型线条展示概念流动模式,并利用基于约束的t-SNE降维算法保证相邻时间段上概念投影分布的相似性,从而保证流型线条的稳定性.为了突出展示主题内概念的异常变化模式,提出了一种异常检测技术用于定位概念剧烈变化的时间段并进行突出显示.使用推特数据集进行定性评估和案例研究,验证了所提出的可视分析方法的准确性和有效性.  相似文献   

4.
为了帮助用户理解和分析搜索引擎产生的搜索数据,提出一个搜索趋势数据可视分析系统,包括数据收集与预处理、流图计算与绘制、流线生成与文字摆放以及交互式分析.以流图与文本相结合的方式呈现搜索数据,展示数据中蕴含的搜索趋势和热点;创新性地提出了流线指导下的文本布局算法,使文字能更好地贴合流图形状;此外,还提供了一系列交互,帮助...  相似文献   

5.
多文本摘要的目标是对给定的查询和多篇文本(文本集),创建一个简洁明了的摘要,要求该摘要能够表达这些文本的关键内容,同时和给定的查询相关。一个给定的文本集通常包含一些主题,而且每个主题由一类句子来表示,一个优秀的摘要应该要包含那些最重要的主题。如今大部分的方法是建立一个模型来计算句子得分,然后选择得分最高的部分句子来生成摘要。不同于这些方法,我们更加关注文本的主题而不是句子,把如何生成摘要的问题看成一个主题的发现,排序和表示的问题。我们首次引入dominant sets cluster(DSC)来发现主题,然后建立一个模型来对主题的重要性进行评估,最后兼顾代表性和无重复性来从各个主题中选择句子组成摘要。我们在DUC2005、2006、2007三年的标准数据集上进行了实验,最后的实验结果证明了该方法的有效性。  相似文献   

6.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

7.
基于Seq2Seq框架的生成式文本摘要模型取得了不错的研究进展,但此类模型大多存在未登录词、生成文本重复、曝光偏差问题。为此,本文提出基于对抗性扰动对比学习的指针生成器网络PGN-CL来建模文本摘要生成过程,该模型以指针生成器网络PGN为基本架构,解决摘要模型存在的未登录词和生成文本重复的问题;采用对抗性扰动对比学习作为一种新的模型训练方式来解决曝光偏差问题。在PGN模型的训练过程中,通过向目标序列添加扰动并建立对比损失函数来生成对抗性正负样本,使负样本与目标序列在嵌入空间相似但语义差别很大,正样本与目标序列在语义空间很相近但嵌入空间差距较大,这些区分困难的正负样本可以引导PGN模型在特征空间更好地学习到正负样本的区分特征,获得更准确的摘要表示。在LCSTS数据集上的实验结果表明,提出的模型在ROUGE评价指标上的表现优于对比基线,证明了融合指针生成器网络和对抗性扰动对比学习对摘要质量提升的有效性。  相似文献   

8.
随着数据观测和数字计算技术的快速发展,空气质量数据粒度越来越细致,为研究空气质量的细粒度数据内联关系可视化、辅助理解空气污染物的转化规律提供了数据基础.针对蕴含丰富内联特征的大气质量细粒度数据开发了一个内联关系可视分析系统.首先,基于大气质量数据多维属性设计时空数据维度模型增强数据的时空表达,并提出一种基于深度学习的特...  相似文献   

9.
目前,随着电影数据逐渐被人们获取,关于电影数据的研究可以给人们带来很多启发。分析电影流派的演变规律,可以为导演提供电影题材建议;分析经济和电影之间的关系,可以找到电影演变的原因;研究高评分电影在时间上的规律,可以指导导演选择电影的上映时间。但是,由于电影包含电影名称、所属流派、评分等多重属性,一般的研究方法不足以发现并直观地呈现电影数据隐含的规律。用可视化与可视分析的方法分析电影数据,设计了一系列相互关联的可视化视图,从多个时间尺度角度分析电影流派的时间演变,通过增长率曲线图研究电影数量和经济的相关关系,并设计饼图集来发现高评分电影在时间、流派上的规律。  相似文献   

10.
黄丽雯  钱微 《计算机应用》2006,26(11):2626-2627,2630
提出了一种对HITS算法进行改进的新方法,本方法将文档内容与一些启发信息如“短语”,“句子长度”和“首句优先”等结合,用于发现多文档子主题,并且将文档子主题特征转换成图节点进行排序。通过对DUC2004数据的实验,结果显示本方法是一种有效的多文本摘要方法。  相似文献   

11.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求.  相似文献   

12.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。  相似文献   

13.
本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足1)从更长的文本序列提取特征;2)保留关键的党建信息.针对党建新闻比普通文本摘要任务面临更长文本序列问题,论文使用Transforme...  相似文献   

14.
文本摘要旨在实现从海量的文本数据中快速准确地获取关键信息。为探索新颖的摘要句特征因素,该文将文句中的关键词嵌入知识网络进行建模,并将文句映射至知识网络进行表达,进而提出文句的关键词建构渗透度特征模型,在摘要句判别中引入文句中关键词组的宽度和深度的渗透特性。结合最大熵建模分类方法,针对领域语料库进行不同特征的影响系数建模,实现了监督学习下摘要句的有效分类和自动提取。文中实验结果良好,表明了新特征模型的有效性和在领域语料库中的稳定性,且特征计算方法简洁,具有良好的综合实用性。  相似文献   

15.
文本摘要的一个迫切需要解决的问题是如何准确地概括文本的核心内容.目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息.但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容.为此,该文提出一种基于双注意指针网络的文本摘要模型.首先,该模型使用了双注...  相似文献   

16.
目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器.该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差.从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用.为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图...  相似文献   

17.
研究自动摘要技术,结合统计与文本关系图并基于复杂网络中的社区划分算法,提出一种多主题文本摘要抽取方法。抽取文本中权重较高的句子,通过句子的相似度计算建立文本关系图,利用社区划分算法解决子主题划分的问题。实验结果表明,该方法对多主题文本摘要的抽取质量较好,能抽取出较多的子主题。  相似文献   

18.
生成一直是自动摘要领域的难题。现有方法在处理长文本的过程中,存在准确率低、冗余等问题。鉴于主题模型在多文档摘要中的突出表现,将其引入到长文本摘要任务中。另外,目前单一的抽取式或生成式方法都无法应对长文本的复杂情况。结合两种摘要方法,提出了一种针对长文本的基于主题感知的抽取式与生成式结合的混合摘要模型。并在TTNews和CNN/Daily Mail数据集上验证了模型的有效性,该模型生成摘要ROUGE分数与同类型模型相比提升了1~2个百分点,生成了可读性更高的摘要。  相似文献   

19.
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡摘要的信息覆盖率和紧凑性。该文采用基于回归的有监督摘要技术对提取的特征进行权衡,并且采用单文档摘要和多文档摘要进行了系统的实验。实验结果证明对于单文档摘要和多文档摘要,权衡熵和相关度均能有效地提高文档摘要的质量。  相似文献   

20.
通过对自动文摘技术的研究,针对叙事类文本,以事件作为基本语义单元,提出一种基于事件的多主题文本自动文摘方法。利用事件和事件间的关系构建事件网络文本表示模型,使用社区划分算法解决子事件主题划分问题。实验结果表明,该方法提取出的准确率、召回率及F值较高,能更好地概括文本的内容。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号