首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
基于LDA模型的文本分割   总被引:9,自引:0,他引:9  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法.  相似文献   

2.
基于PLSA模型的文本分割   总被引:13,自引:0,他引:13  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用 .基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系 .实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6.06%,远远低于其他同类算法 .  相似文献   

3.
面向短文本的命名实体识别   总被引:1,自引:0,他引:1  
王丹  樊兴华 《计算机应用》2009,29(1):143-145,
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。  相似文献   

4.
基于多模板隐马尔可夫模型的文本信息抽取算法   总被引:1,自引:0,他引:1  
由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文本进行分块;然后在分块的基础上,对训练数据进行聚类以形成多个形式的模板(多模板),并对多模板数据训练得到隐马尔可夫初始概率及转移概率参数;最后,用被训练的数据统一训练释放概率参数,结合初始概率、转移概率以及释放概率参数对文本信息进行抽取。实验结果表明,该算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能。  相似文献   

5.
本文讨论手写体汉字的基本分割问题以及解决该问题需做的一些工作,并提出了一种新的分割方法,用于在线和离线系统识别自由格式手写体汉字的句子。该方法通过调整空间阈值和最小均方差判别以实现基本分割和精细分割,从中可得到五种最可能的分割方案,抽取所有可能的分段并进行识别。由分段建立起栅格点,利用基于Viterbi的算法搜索到最可能的字符序列。本算法对自由格式连续手体汉字的处理具有很强的适应性和灵活性。对自然  相似文献   

6.
基于隐Markov模型的文本分类   总被引:1,自引:0,他引:1       下载免费PDF全文
把基于序列模型的隐Markov模型引入文本分类领域。把待分类文本描述成一系列状态演化的隐Markov过程,其中状态以特定的概率产生代表文本的特征项。用序列模式来描述文本类,文本序列通过与隐Markov模型的匹配,求出其对应状态序列和最大输出概率。比较各个文本类的结果,达到文本分类的目的。最后通过和简单向量算法,KNN,Naive Bayes分类算法的比较,说明本算法的在文本分类中的成功应用。  相似文献   

7.
文本分割综述   总被引:1,自引:0,他引:1  
石晶 《计算机工程与应用》2006,42(35):155-159,171
文本分割在信息提取、文摘生成、语篇解析及其他多个领域有着极为重要的应用。文本分割的对象包括静态书面文本、语音文本以及动态文本等;分割的粒度因分割的目的不同而有所区别;分割的准确性不仅需要直接评测,更需要间接评测。在大量文献的基础上,对目前常用的分割方法及评测手段进行了全面的归纳和总结,分析了文本分割技术的研究现状,指出尚存在的问题并展望研究前景。  相似文献   

8.
基于层次HMM的运动目标分割   总被引:1,自引:0,他引:1       下载免费PDF全文
提出对差分图像用三层统计模型表示的思想:前景运动汽车层、背景运动汽车层和运动阴影层,并分别建立了各层的统计模型,应用HMM对运动图像序列进行模型参数估计,通过模型进行运动汽车分割。HMM利用图像序列帧之间的图像像素空间相关性和时间相关性,从而完成模型参数的识别。通过MAP算法完成模型参数具体化,不但用模型完成图像前景目标的分割,同时在分割中自然区别了背景运动目标和阴影,实现了复杂背景图像的运动汽车分割。实验结果表明方法能够有效地完成分割目的。  相似文献   

9.
针对现有字符分割方法应用于非规则排列汉字文本时分割正确率低的问题,提出一种基于连通区域捆绑规则的汉字字符分割方法.首先,提取文本前景并标记连通区域;其次,通过计算连通区域的质心及半径构建其包围圆;然后,根据包围圆大小判断并剔除错误的连通区域;最后,基于汉字的结构特征制定文本连通区域捆绑规则,实现汉字字符的分割.实验表明,与现有方法相比,文中方法在处理非规则排列汉字文本时具有更高的分割正确率,且该方法对规则排列汉字文本的字符分割也具有良好的适用性.  相似文献   

10.
实时手势加速度动作分割与识别研究   总被引:1,自引:0,他引:1  
实时手势动作分割与识别是基于惯性传感器手势交互的重要研究内容.采用佩戴在手腕的单个加速度传感器获取手势加速度信号,提出一种实时手势加速度动作分割和识别方案.首先采用基于阈值的动作分割算法实时切分连续手势,通过聚类算法提取手势动作的关键特征,然后构造离散隐马尔可夫模型实现手势识别.实验结果表明,本文采用的手势动作切分算法能自动提取有效手势信号,关键特征选择不仅降低了隐马尔可夫模型的复杂度,而且提高了识别率.  相似文献   

11.
12.
许勇  宋柔 《计算机工程》2007,33(10):16-18
CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。  相似文献   

13.
This article presents a cross-lingual study for Hungarian and Finnish about the segmentation of continuous speech on word and phrasal level by examination of supra-segmental parameters. A word level segmentationer has been developed which can indicate the word boundaries with acceptable precision for both languages. The ultimate aim is to increase the robustness of speech recognition on the language modelling level by the detection of word and phrase boundaries, and thus we can significantly decrease the searching space during the decoding process. Searching space reduction is highly important in the case of agglutinative languages. In Hungarian and in Finnish, if stress is present, this is always on the first syllable of the word stressed. Thus if stressed syllables can be detected, these must be at the beginning of the word. We have developed different algorithms based either on a rule-based or a data-driven approach. The rule-based algorithms and HMM-based methods are compared. The best results were obtained by data-driven algorithms using the time series of fundamental frequency and energy together. Syllable length was found to be much less effective, hence was discarded. By use of supra-segmental features, word boundaries can be marked with high accuracy, even if we are unable to find all of them. The method we evaluated is easily adaptable to other fixed-stress languages. To investigate this we adapted our data-driven method to the Finnish language and obtained similar results.  相似文献   

14.
欧建林  蔡骏  林茜 《计算机工程》2009,35(13):177-178
分析基于连续概率密度的隐马尔可夫模型大词汇量连续语音识别系统中的似然率计算方法,阐述运用并行方式实现似然率计算的可行性,并在此基础上,提出一种基于SIMD的似然率快速算法,通过对语音识别工具包HTK3.4中似然率计算模块的改进实现该算法。实验结果表明,在不降低识别准确率的前提下,该算法能有效加快似然率计算的速度。  相似文献   

15.
一种视频中字符的集成型切分与识别算法   总被引:3,自引:0,他引:3  
杨武夷  张树武 《自动化学报》2010,36(10):1468-1476
视频文本行图像识别的技术难点主要来源于两个方面: 1)粘连字符的切分与识别问题; 2)复杂背景中字符的切分与识别问题. 为了能够同时切分和识别这两种情况中的字符, 提出了一种集成型的字符切分与识别算法. 该集成型算法首先对文本行图像二值化, 基于二值化的文本行图像的水平投影估计文本行高度. 其次根据字符笔划粘连的程度, 基于图像分析或字符识别对二值图像中的宽连通域进行切分. 然后基于字符识别组合连通域得到候选识别结果, 最后根据候选识别结果构造词图, 基于语言模型从词图中选出字符识别结果. 实验表明该集成型算法大大降低了粘连字符及复杂背景中字符的识别错误率.  相似文献   

16.
通过人走路的姿势实现对个人身份的远距离识别和认证是当前生物特征识别研究领域的一个研究热点。算法利用步态轮廓图像边界到重心的距离矢量对步态轮廓图像进行人体运动的静态形状描述,采用连续隐马尔可夫模型对人体运动时从一个动作到另一个动作的过渡进行动态描述。算法在CMU数据库上面进行实验取得了较高的正确识别率。  相似文献   

17.
针对现有动作识别中对连续动作识别研究较少且单一算法对连续动作识别效果较差的问题,提出在单个动作建模的基础上,采用滑动窗口法和动态规划法结合,实现连续动作的分割与识别。首先,采用深度置信网络和隐马尔可夫结合的模型DBN-HMM对单个动作建模;其次,运用所训练动作模型的对数似然值和滑动窗口法对连续动作进行评分估计,实现初始分割点的检测;然后,采用动态规划对分割点位置进行优化并对单个动作进行识别。在公开动作数据库MSR Action3D上进行连续动作分割与识别测试,结果表明基于滑动窗口的动态规划能够优化分割点的选取,进而提高识别精度,能够用于连续动作识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号