首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
主题检测是文本挖掘的一个重要研究方向,传统的主题检测方法以统计理论为基础,忽略了数据本身蕴含的语义,带来了偏差严重、与样本数据高度相关等缺点。针对以上缺点,面向文本流数据,提出一种基于特征本体的主题检测方法。首先构建文本特征本体;其次,将较为复杂的文本特征本体看作是由若干主题组成的连通图,然后将主题连通图分解成单边图集合;再次,将主题相似度计算问题转化为单边图贡献度和图相似度的计算问题。最后,对每一批新文本集检测是否有新主题,从而使得主题的个数随着时间的推移而增加。在科技文献和新闻语料上进行实证研究,结果发现阈值δ参数决定文本流中新主题出现的频率,且实验结果同经典主题模型基本保持一致。除此之外,同传统的方法相比,本文提出的方法能更好地支持主题的语义表示,且适用于流数据,能增量实现主题检测,在应用上具有更大的优势。  相似文献   

2.
提出一种基于特定颜色分布区域搜索的文本定位方法,利用文字通常呈现为单一的颜色被不同的背景颜色包围的特点,以单一的颜色作为依据,搜索被包围的文本候选区域;然后,在区域合并与分离算法的基础上,利用不变矩特征和支持向量机(SVM)分类器实现候选区域的进一步筛选。与一般基于形状和纹理的方法相比,由于采用了文字颜色的空间分布特征,避开了文本与其他元素的形状和纹理特征交错问题,保证了算法适应性。基于精确区域搜索的不变矩特征提取,降低了分类器的训练难度,使分类器能很好地适应背景和文字尺寸变化以及部分遮挡等复杂情形。实验表明,该方法具有较好的复杂环境适应性和非常高的准确性。  相似文献   

3.
陈千  桂志国  郭鑫  向阳 《计算机应用》2015,35(2):456-460
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。  相似文献   

4.
朱卫星  徐伟光  何红悦  李雯 《计算机科学》2017,44(Z11):411-413, 456
文本数据是存储和交换信息最自然的方式,文本挖掘技术可以发现海量文本数据中隐藏的潜在知识模式。研究了文本数据主题挖掘与关联搜索技术,首先通过文本解析提取、分词预处理和索引等进行文本信息处理,然后利用基于潜在语义关系的主题发现模型挖掘大量文本数据中隐藏的主题信息,最后利用主题模型计算关键词间的关联程度进行查询扩展,从而实现关联搜索。实现了一个文本数据挖掘与关联搜索的原型系统,对Tancorp数据集进行主题发现和关联搜索,并以视化和网页同步显示关联搜索的过程。  相似文献   

5.
在现有的搜索文本中,存在大量的不确定文本结构和内容,使得常规的聚类算法难以实现,并且文本搜索的结果没有进行类聚,造成搜索结果集合数据量非常庞大。提出了基于模糊集的文本搜索的聚类分析的方法,通过模糊技术对异构数据进行处理,可以改善算法实现的时间和空间的复杂度,减少文本处理的维度,提高算法的鲁棒性,对算法的实现给出了实例分析。通过与其他聚类算法的实测数据的比对分析,验证了算法实现的精确性和效率性。  相似文献   

6.
汪锦云  向阳 《计算机应用》2023,(10):3070-3076
网络中存在大量语义相同或者相似的冗余文本,而文本去重能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重算法依赖文字重合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,去重效果不理想。针对文本语义去重问题,提出一种基于关键词图表示的长文本去重算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为节点的图;其次,通过多种方式对节点进行编码,并利用图注意力网络(GAT)学习节点之间的关系,从而得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对的语义相似度进行去重处理。与传统算法相比,所提算法能有效利用文本的语义信息,并能通过图结构将长文本中距离较远的句子用关键词短语的共现关系连接起来,从而增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE (Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT (Bidirectional Encoder Representation...  相似文献   

7.
在文本流数据中,文本文档以流的形式源源不断地进入系统,数据量大和数据更新速度快给文本流话题发现与追踪提出了严峻的挑战。为了应对上述困难,本文提出了一种基于联合矩阵分解的话题发现与追踪模型。为了有效地处理海量数据,将流数据按照时间戳划分为数据块;为了能在数据的快速变化中追踪到话题的演化,将当前时刻的话题分布表示为前一时刻话题分布的线性演化。本文采用联合矩阵分解技术将当前的数据块分别表示为当前的话题分布和前一时刻的话题分布两种形式,通过同时分解两个矩阵得到当前的话题分布。在优化求解过程中,通过Karush-Kuhn-Tucker条件分析得到参数的更新策略,并给出相应的求解算法。Yahoo数据集对比实验表明,本文提出的话题发现算法能更好的发现文本流中蕴含的话题分布情况,并且可以随着时间的推移对话题的演化进行追踪。  相似文献   

8.
文本可视分析是一个跨学科的领域,涉及文本数据挖掘、计算机图形图像以及人机交互等各方面的知识和技术,可以帮助用户以可视分析的手段交互地分析海量的文本数据内容,提供及时的反馈,发现异常和规则,提取知识以及获取洞察.已被应用在国土安全、商业智能分析以及金融分析等很多不同的领域,受到国内外学术界、工业界以及政府部门越来越多的重视.文中首先简要地介绍了文本可视分析的一般流程;然后系统地介绍了典型的文本分析和可视化技术,并着重讨论这2类研究的最新技术以及发展;最后对全文进行了总结并展望了文本可视分析面临的四大研究挑战:海量数据规模、复杂数据的不确定性、数据融合以及人机交互.  相似文献   

9.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明...  相似文献   

10.
文本分类被广泛应用于新闻分类、话题标记和情感分析等语言处理场景中,是自然语言处理中的一个基本而重要的任务。目前的文本分类模型一般没有同时考虑文本单词的共现关系和文本自身的句法特性,从而限制了文本分类的效果。因此,提出了一个基于图卷积神经网络的文本分类模型(Mix-GCN)。首先基于文本单词之间的共现关系和句法依存关系,将文本数据构建成文本共现图和句法依存图;接着,利用GCN模型对文本图和句法依赖图进行表示学习,得到单词的嵌入向量;然后通过图池化方法以及自适应融合的方法得到文本的嵌入向量;最后通过图分类方法完成文本分类。Mix-GCN模型同时考虑了文本中相邻单词之间的关系和文本单词之间存在的句法依存关系,提升了文本分类性能。在6个基准数据集上与8种知名文本分类方法进行了比较,实验结果表明Mix-GCN具有良好的文本分类效果。  相似文献   

11.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求.  相似文献   

12.
流行病数据的多层面可视分析,可以加快流行病数据分析任务的交互式探索效率和加深对潜在模式的深刻理解.本文对流行病数据可视分析的相关工作展开综述,并主要通过四个方面进行总结和归纳:(1)流行病数据的时空可视分析,帮助用户发现和理解流行病数据在时间、空间以及时空维度中潜在的流行病特征和传播规律等;(2)流行病数据中涉及非结构...  相似文献   

13.
14.
秦绪佳  单扬洋  徐菲  郑红波  张美玉 《计算机科学》2018,45(12):262-267, 287
针对全国各省份垃圾处理方式的数据,提出一种混合可视分析方法。为了从多角度分析数据,混合U矩阵、平行坐标以及Small-Multiple 3种可视化技术,设计并实现了3种可视化视图的交互联动。首先,对数据进行聚类处理,将各省份近年的垃圾处理方式划分类别,采用SOM神经网络聚类算法实现聚类。然后,针对SOM聚类结果,采用U矩阵的方式进行可视化,并采用平行坐标描述每个聚类结果的各个属性。为了分析数据的地理属性及时序属性,采用Small-Multiple可视化技术。最后,实现多视图联动、刷新技术等交互方式,帮助用户自行探索数据,实现多视图的交互展示与分析。实验表明,这种混合可视方式可达到较好的多属性交互可视化效果,能够帮助用户了解并分析我国垃圾处理方式的分布及趋势。  相似文献   

15.
严宇宇  陶煜波  林海 《软件学报》2016,27(5):1114-1126
随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一个交互式可视分析系统,帮助用户对主题模型进行交互修正.首先对层次狄利克雷过程进行了改进,使其支持单词约束;然后,使用矩阵视图对主题模型进行展示,并使用语义相关的词云布局帮助用户寻找单词约束,用户通过添加单词约束迭代优化主题模型;最后,通过案例分析及用户研究来评价该系统的可用性.  相似文献   

16.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

17.
With the advent of the big data era, the significance of data analysis has increasingly come to the forefront, showcasing its ability to uncover valuable insights from vast datasets, thereby enhancing the decision-making process for users. Nonetheless, the data analysis workflow faces three dominant challenges: high coupling in the analysis workflow, a plethora of interactive interfaces, and a time-intensive exploratory analysis process. To address these challenges, we introduce with this paper Navi, a data analysis system powered by natural language interaction. Navi embraces a modular design philosophy that abstracts three core functional modules from mainstream data analysis workflows: data querying, visualization generation, and visualization exploration. This approach effectively reduces the coupling of the system. Meanwhile, Navi leverages natural language as a unified interactive interface to seamlessly integrate various functional modules through a task scheduler, ensuring their effective collaboration. Moreover, in order to address the challenges of exponential search space and ambiguous user intent in visualization exploration, we propose an automated approach for visualization exploration based on Monte Carlo tree search. In addition, a pruning algorithm and a composite reward function, both incorporating visualization domain knowledge, are devised to enhance the search efficiency and result quality. Finally, we validate the effectiveness of Navi through both quantitative experiments and user studies.  相似文献   

18.
Unsteady scientific data is one of the top challenges in visualization, because a huge amount of information must be displayed. ϵ-machines are an information-theoretic concept; they compress the dynamics in the data set to a finite-state machine, in which nodes represent local flow patterns and edges represent transitions between them. Several enhancements to the fundamental ϵ-machine representation can help users identify interesting time intervals, analyze the evolution of unusual local dynamics, and track features over time. Automatically abstracting information from the original data is a first step toward knowledge-assisted visualization. Successive findings from analysis can help provide subsequent users with knowledge gained in earlier research, resulting in a knowledge-assisted system for the analysis of unsteady-flow features based on information theory. This article is part of a special issue on knowledge-assisted visualization.  相似文献   

19.
When using data-mining tools to analyze big data, users often need tools to support the understanding of individual data attributes and control the analysis progress. This requires the integration of data-mining algorithms with interactive tools to manipulate data and analytical process. This is where visual analytics can help. More than simple visualization of a dataset or some computation results, visual analytics provides users an environment to iteratively explore different inputs or parameters and see the corresponding results. In this research, we explore a design of progressive visual analytics to support the analysis of categorical data with a data-mining algorithm, Apriori. Our study focuses on executing data mining techniques step-by-step and showing intermediate result at every stage to facilitate sense-making. Our design, called Pattern Discovery Tool, targets for a medical dataset. Starting with visualization of data properties and immediate feedback of users’ inputs or adjustments, Pattern Discovery Tool could help users detect interesting patterns and factors effectively and efficiently. Afterward, further analyses such as statistical methods could be conducted to test those possible theories.  相似文献   

20.
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号