首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 149 毫秒
1.
文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。  相似文献   

2.
自动提取图像中的文本对图像视频检索具有重要意义.提出了一种基于颜色和笔画特征,应用无监督聚类方法进行复杂背景下的文本分割算法.首先在对文本行图像增强的基础上,应用颜色约减和直方图确定文本颜色.然后提取颜色和笔画特征,应用k-均值聚类算法分割出文本和背景像素.最后应用后处理优化分割结果.实验表明,该算法具有较好的分割效果.  相似文献   

3.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。  相似文献   

4.
图像和视频中包含着丰富的文本信息,提取和识别图像文本信息非常具有实际意义。传统的图像文本信息提取方法大多基于字符的代数和几何特征。作者从另一个角度出发,将彩色字符看成彩色图像的一部分,使类似字符的景物也可以被当作字符识别出来。提出一种基于Mean-Shift算法的图像文本信息提取方法,首先利用Mean-Shift算法对图像进行分割,然后对分割得到的文本区域进行投影分析从而将每个字符分割出来,最后将字符识别。  相似文献   

5.
基于Mean-Shift的图像文本信息提取   总被引:1,自引:1,他引:0  
图像和视频中包含着丰富的文本信息,提取和识另4图像文本信息非常具有实际意义。传统的图像文本信息提取方法大多基于字符的代数和几何特征。作者从另一个角度出发,将彩色字符看成彩色图像的一部分,使类似字符的景物也可以被当作字符识别出来。文中提出一种基于Mean-Shift算法的图像文本信息提取方法,首先利用Mean-Shift算法对图像进行分割,然后对分割得到的文本区域进行投影分析从而将每个字符分割出来,最后将字符识别。  相似文献   

6.
图像和视频中包含着丰富的文本信息,提取和识别图像文本信息非常具有实际意义.传统的图像文本信息提取方法大多基于字符的代数和几何特征.作者从另一个角度出发,将彩色字符看成彩色图像的一部分,使类似字符的景物也可以被当作字符识别出来.提出一种基于Mean-Shift算法的图像文本信息提取方法,首先利用Mean-Shift算法对图像进行分割,然后对分割得到的文本区域进行投影分析从而将每个字符分割出来,最后将字符识别.  相似文献   

7.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

8.
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。  相似文献   

9.
根据对自然场景图像分割后具有标志牌和背景明显分开等特点,提出了一种基于边框删除的标志牌文本提取算法,首先在二值化图像中采用基于边缘检测和投影算法对标志牌区域进行定位,然后采用边框删除算法提取标志牌文本.大量实验结果表明该方法能够准确定位并提取非规则的标志牌文本.  相似文献   

10.
基于连通分量特征的文本检测与分割   总被引:3,自引:0,他引:3       下载免费PDF全文
自然背景中的文本识别具有巨大的应用价值,但其应用却一直受到文本检测和分割技术的限制。为了更有效地进行文本检测与分割,提出了一种基于连通分量特征的自然场景中文本检测分割算法。该算法首先将原始图片通过Niblack方法分解为许多连通分量;接着,用一个级联分类器和一个SVM组成的两阶段分类模块来验证这些连通分量的文本特征。由于文本连通分量和非文本连通分量在特征上存在差异,大多数非文本会被级联分类器丢弃,而SVM则能在此结果上做进一步的验证,因此最终输出只有文本的二值图像。最后用该算法在测试数据上进行了评估实验,评估结果表明,检测精度超过90%,响应超过93%。  相似文献   

11.
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础。传统的基于隐马尔可夫模型(HiddenMarkov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系。本文提出一种基于隐马尔科夫模型的改进算法。该算法使用潜在语义分析(Latent Se-mantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割。数据实验表明,该算法具有较好的分割性能。  相似文献   

12.
基于隐马尔可夫链的广播新闻分割分类   总被引:4,自引:2,他引:4  
提出了使用具有模拟随机时序数据良好能力的隐马尔可夫链来完成广播新闻分割分类的算法,首先使用含隐藏语义状态的隐马尔可夫链把原始广播新闻粗略分类成开始/结束和语音两部分,其次应用3个隐马尔可夫链,按照最大似然概率法把语音片段预识别为主持人介绍、广告和天气预报,最后由语义变化速率识别出新闻现场报道,完成广播新闻的精细分割分类任务。  相似文献   

13.
In this paper a system for laboratory rodent video tracking and behavior segmentation is proposed. A new real-time mouse pose estimation method is proposed based on semi-automatically generated animal shape model. Behavior segmentation into separate behavior acts is considered as a signal segmentation problem using hidden Markov models (HMM). Conventional first order HMM supposes a geometric prior distribution on segment’s length, which is inadequate for behavior segmentation. We propose a modification of conventional first order HMM that allows any prior distribution on segment’s length. Experiments show that the developed approach can lead to more adequate results comparing to conventional HMM.  相似文献   

14.
Optical character recognition for cursive handwriting   总被引:5,自引:0,他引:5  
A new analytic scheme, which uses a sequence of image segmentation and recognition algorithms, is proposed for the off-line cursive handwriting recognition problem. First, some global parameters, such as slant angle, baselines, stroke width and height, are estimated. Second, a segmentation method finds character segmentation paths by combining gray-scale and binary information. Third, a hidden Markov model (HMM) is employed for shape recognition to label and rank the character candidates. For this purpose, a string of codes is extracted from each segment to represent the character candidates. The estimation of feature space parameters is embedded in the HMM training stage together with the estimation of the HMM model parameters. Finally, information from a lexicon and from the HMM ranks is combined in a graph optimization problem for word-level recognition. This method corrects most of the errors produced by the segmentation and HMM ranking stages by maximizing an information measure in an efficient graph search algorithm. The experiments indicate higher recognition rates compared to the available methods reported in the literature  相似文献   

15.
智能监控系统中的行为分析与识别是当前计算机视觉领域的研究热点,而行为序列分割则是行为分析与识别的基础.提出了一种无监督的行为序列分割算法,并对分割结果进行识别.首先,采用鲁棒的形状编码方案得到人体轮廓的紧凑表示,提取轮廓点集特征描述运动人体;然后,基于奇异值分解(SVD)估计行为序列数据的本征维数,确定数据对应的低维流形,并通过检测特征数据在该流形上的投影误差的突变实现行为序列分割;最后,采用隐马尔可夫模型(HMM)对分割结果进行识别.在公共数据库上的实验结果表明了此分割和识别算法的有效性.  相似文献   

16.
朱义鑫  闵东 《计算机工程与应用》2006,42(24):145-148,151
文章从HMM的基本思想、概念出发,建立了以捕获的网络数据包为观测对象的HMM异常检测原型。对原型中存在的可见符号集太大的问题,提出了对观测对象进行分段的改进办法,进而建立了具有可操作性的HMM异常检测模型。在观测对象的概率计算方面,引入了滑动窗口的概念,解决了概率值过小的问题。对模型的训练,给出了模型训练算法、矩阵B的更新公式。  相似文献   

17.
提出一种用签名的分段差异值作为隐马尔可夫模型(HMM)观测值的在线签名认证应用方法。首先,采用双向后向合并DTW算法确定签名中关键点之间的对应关系。然后,采用经典DTW度量签名中各种细微的差异,用这些DTW差异值作为观测值训练HMM模型。将模型状态的意义定义为相似程度,将状态转移结构设定为全概率转移。在SVC2004签名数据库上,验证了该方法的有效性。  相似文献   

18.
研究了利用隐马尔可夫模型(HMM)对动态语音模式进行时间归一化的方法。引入了借助于HMM对语音基元观测序列所做的一种分段,这种分段被称之为语音基元观测序列的HMM全状态分段,并且定义了HMM全状态分段的符合度。根据HMM全状态分段的符合度确定了语音基元观测序列的最优HMM全状态分段,通过最优HMM全状态分段把语音基元观测序列转换为固定维数的向量,从而实现了动态语音模式的时间归一化。将动态语音模式的这一时间归一化方法在结合HMM和人工神经网络(ANN)的混合语音识别方法中进行了应用,实验结果表明这一时间归一化方法的有效性。  相似文献   

19.
To manipulate the layout analysis problem for complex or irregular document image, a Unified HMM-based Layout Analysis Framework is presented in this paper. Based on the multi-resolution wavelet analysis results of the document image, we use HMM method in both inner-scale image model and trans-scale context model to classify the pixel region properties, such as text, picture or background. In each scale, a HMM direct segmentation method is used to get better inner-scale classification result. Then another HMM method is used to fuse the inner-scale result in each scale and then get better final segmentation result. The optimized algorithm uses a stop rule in the coarse to fine multi-scale segmentation process, so the speed is improved remarkably. Experiments prove the efficiency of proposed algorithm.  相似文献   

20.
曹昀炀  王涛 《计算机应用》2019,39(9):2695-2700
针对传统半监督图像分割方法难以精确分割分散或细小区域的缺陷,提出了一种耦合标签先验和拉普拉斯坐标模型的半监督图像分割算法。首先,扩展拉普拉斯坐标(LC)模型,通过引入标签先验项进一步精确表征未标记像素点与已标记像素点之间的关系。然后,基于矩阵方程的求导优化,有效估计像素属于标签的后验概率,以实现图像目标分割的任务。得益于标签先验的引入,所提算法对分散或细小区域的分割更加鲁棒。最后,在多个公开的半监督分割数据集上实验结果表明,相比拉普拉斯坐标算法,所提算法的分割准确率获得了显著提升,验证了所提算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号