共查询到20条相似文献,搜索用时 62 毫秒
1.
文本可视分析是一个跨学科的领域,涉及文本数据挖掘、计算机图形图像以及人机交互等各方面的知识和技术,可以帮助用户以可视分析的手段交互地分析海量的文本数据内容,提供及时的反馈,发现异常和规则,提取知识以及获取洞察.已被应用在国土安全、商业智能分析以及金融分析等很多不同的领域,受到国内外学术界、工业界以及政府部门越来越多的重视.文中首先简要地介绍了文本可视分析的一般流程;然后系统地介绍了典型的文本分析和可视化技术,并着重讨论这2类研究的最新技术以及发展;最后对全文进行了总结并展望了文本可视分析面临的四大研究挑战:海量数据规模、复杂数据的不确定性、数据融合以及人机交互. 相似文献
2.
传统的历史与文学研究通常是案例式地分析具体的文学作品与词人的背景.文学作品的内容、情感与含义和作者的生平经历、师承流派、家国时代背景息息相关,传统的分析方法难以直观地了解以上各项内容的关联.以宋词作为文学作品代表进行分析,提出了一套基于文本关联与时空可视分析的方法.它支持文学研究者从词人的生平轨迹和不同生活年代的背景进行分析与对比,探索不同年代、不同经历的词作在文本主题上的相关性与独特性.并且,通过对宋词文本的音律情感可视化与文本意象的关联分析,让文学研究者拥有多维度的视角去了解宋词文本的特性,不仅仅是分析文本本身,而是支持词作与词人的年谱和时代背景进行交叉验证.与宋代文学研究专家合作,通过对他们进行用户实验研究,证明了该方法可以有效地帮助专家对词人的文学生涯及作品进行深入分析,并探索出新的研究视角,为今后的研究提供了更广阔的分析基础. 相似文献
3.
分析社交媒体中关联主题在不同社会群体之间的流动模式有助于理解观点、信息和思想的传递.已有的主题流动分析的工作大多是基于主题模型的,只能通过查看包含该主题的文本来分析主题流动的原因.这些文本数据量大且结构复杂,难以分析.为了解决这一问题,使用概念对主题内部的内容进行概括,提出了基于概念的动态文本可视分析方法,用于展示主题内容的变化模式,帮助分析主题流动的原因.该方法使用流型线条展示概念流动模式,并利用基于约束的t-SNE降维算法保证相邻时间段上概念投影分布的相似性,从而保证流型线条的稳定性.为了突出展示主题内概念的异常变化模式,提出了一种异常检测技术用于定位概念剧烈变化的时间段并进行突出显示.使用推特数据集进行定性评估和案例研究,验证了所提出的可视分析方法的准确性和有效性. 相似文献
4.
为了帮助用户理解和分析搜索引擎产生的搜索数据,提出一个搜索趋势数据可视分析系统,包括数据收集与预处理、流图计算与绘制、流线生成与文字摆放以及交互式分析.以流图与文本相结合的方式呈现搜索数据,展示数据中蕴含的搜索趋势和热点;创新性地提出了流线指导下的文本布局算法,使文字能更好地贴合流图形状;此外,还提供了一系列交互,帮助... 相似文献
5.
多文本摘要的目标是对给定的查询和多篇文本(文本集),创建一个简洁明了的摘要,要求该摘要能够表达这些文本的关键内容,同时和给定的查询相关。一个给定的文本集通常包含一些主题,而且每个主题由一类句子来表示,一个优秀的摘要应该要包含那些最重要的主题。如今大部分的方法是建立一个模型来计算句子得分,然后选择得分最高的部分句子来生成摘要。不同于这些方法,我们更加关注文本的主题而不是句子,把如何生成摘要的问题看成一个主题的发现,排序和表示的问题。我们首次引入dominant sets cluster(DSC)来发现主题,然后建立一个模型来对主题的重要性进行评估,最后兼顾代表性和无重复性来从各个主题中选择句子组成摘要。我们在DUC2005、2006、2007三年的标准数据集上进行了实验,最后的实验结果证明了该方法的有效性。 相似文献
6.
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题. 相似文献
7.
基于Seq2Seq框架的生成式文本摘要模型取得了不错的研究进展,但此类模型大多存在未登录词、生成文本重复、曝光偏差问题。为此,本文提出基于对抗性扰动对比学习的指针生成器网络PGN-CL来建模文本摘要生成过程,该模型以指针生成器网络PGN为基本架构,解决摘要模型存在的未登录词和生成文本重复的问题;采用对抗性扰动对比学习作为一种新的模型训练方式来解决曝光偏差问题。在PGN模型的训练过程中,通过向目标序列添加扰动并建立对比损失函数来生成对抗性正负样本,使负样本与目标序列在嵌入空间相似但语义差别很大,正样本与目标序列在语义空间很相近但嵌入空间差距较大,这些区分困难的正负样本可以引导PGN模型在特征空间更好地学习到正负样本的区分特征,获得更准确的摘要表示。在LCSTS数据集上的实验结果表明,提出的模型在ROUGE评价指标上的表现优于对比基线,证明了融合指针生成器网络和对抗性扰动对比学习对摘要质量提升的有效性。 相似文献
8.
9.
目前,随着电影数据逐渐被人们获取,关于电影数据的研究可以给人们带来很多启发。分析电影流派的演变规律,可以为导演提供电影题材建议;分析经济和电影之间的关系,可以找到电影演变的原因;研究高评分电影在时间上的规律,可以指导导演选择电影的上映时间。但是,由于电影包含电影名称、所属流派、评分等多重属性,一般的研究方法不足以发现并直观地呈现电影数据隐含的规律。用可视化与可视分析的方法分析电影数据,设计了一系列相互关联的可视化视图,从多个时间尺度角度分析电影流派的时间演变,通过增长率曲线图研究电影数量和经济的相关关系,并设计饼图集来发现高评分电影在时间、流派上的规律。 相似文献
10.
提出了一种对HITS算法进行改进的新方法,本方法将文档内容与一些启发信息如“短语”,“句子长度”和“首句优先”等结合,用于发现多文档子主题,并且将文档子主题特征转换成图节点进行排序。通过对DUC2004数据的实验,结果显示本方法是一种有效的多文本摘要方法。 相似文献
11.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求. 相似文献
12.
Web文档的迅猛增长使Web文摘技术成了当今的一个研究热点。由于Web文档的特殊性,使得Web文摘不同于传统的文本自动文摘。本文分析了Web文档的特点;给出了Web文摘的定义;提出了基于句子抽取的Web文摘生成算法。算法中将每个Web句子权重分解为Web特征词权重和Web句子结构权重,并用机器学习的方法来计算二者所占的比重。Web特征词权重根据文档分类树图进行权值调整,Web句子结构权重充分考虑排版格式和超连接属性。通过对1000篇Web文档的文摘实验,证明文中所提Web文摘算法切实可行。 相似文献
13.
本文针对实际党建领域中的新闻标题进行自动生成,提出了一种融合指针网络的自动文本摘要模型-Tri-PCN.相比于传统基于编码器-解码器框架的自动文本摘要模型,党建新闻标题生成模型还需要满足1)从更长的文本序列提取特征;2)保留关键的党建信息.针对党建新闻比普通文本摘要任务面临更长文本序列问题,论文使用Transforme... 相似文献
14.
15.
16.
17.
18.
生成一直是自动摘要领域的难题。现有方法在处理长文本的过程中,存在准确率低、冗余等问题。鉴于主题模型在多文档摘要中的突出表现,将其引入到长文本摘要任务中。另外,目前单一的抽取式或生成式方法都无法应对长文本的复杂情况。结合两种摘要方法,提出了一种针对长文本的基于主题感知的抽取式与生成式结合的混合摘要模型。并在TTNews和CNN/Daily Mail数据集上验证了模型的有效性,该模型生成摘要ROUGE分数与同类型模型相比提升了1~2个百分点,生成了可读性更高的摘要。 相似文献
19.