首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
基于LDA模型的文本分割   总被引:9,自引:0,他引:9  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法.  相似文献   

2.
基于PLSA模型的文本分割   总被引:13,自引:0,他引:13  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用 .基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系 .实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6.06%,远远低于其他同类算法 .  相似文献   

3.
文本分割综述   总被引:1,自引:0,他引:1  
石晶 《计算机工程与应用》2006,42(35):155-159,171
文本分割在信息提取、文摘生成、语篇解析及其他多个领域有着极为重要的应用。文本分割的对象包括静态书面文本、语音文本以及动态文本等;分割的粒度因分割的目的不同而有所区别;分割的准确性不仅需要直接评测,更需要间接评测。在大量文献的基础上,对目前常用的分割方法及评测手段进行了全面的归纳和总结,分析了文本分割技术的研究现状,指出尚存在的问题并展望研究前景。  相似文献   

4.
为提高Fisher判别分析的质量,对图像中各像素本身的灰度值及其邻域平均灰度值特征进行两步聚类分析,根据聚类结果选取Fisher判别分析所需的训练样本,同时为了尽可能降低判别分析过程中有用信息的损失,将所得到的原训练样本集进行非线性变换,使其映射到高维空间中,利用映射后的训练样本求得Fisher判别规则。实验结果表明,与基于原训练样本的Fisher判别分析和基于寻找更多样本特征的Fisher判别分析方法生成结果相比,该方法能够获得更好的图像分割精度。  相似文献   

5.
杜雨奇  郑津  王杨  黄诚  李平 《计算机应用》2022,42(12):3692-3699
文本分割的主要任务是将文本按照主题相关的原则划分为若干个相对独立的文本块。针对现有文本分割模型提取文本段落结构信息、语义相关性及上下文交互等细粒度特征的不足,提出了一种基于图卷积网络(GCN)的文本分割模型TS-GCN。首先,基于文本段落的结构信息与语义逻辑构建出文本图;然后,引入语义相似性注意力来捕获文本段落节点间的细粒度相关性,并借助GCN实现文本段落节点高阶邻域间的信息传递,以此增强模型多粒度提取文本段落主题特征表达的能力。将所提模型与目前常用作文本分割任务基准的代表模型CATS及其基础模型TLT-TS进行对比。实验结果表明在Wikicities数据集上,TS-GCN在未增加任何辅助模块的情况下比TLT-TS的评价指标Pk值下降了0.08个百分点;在Wikielements数据集上,相较于CATS和TLT-TS,所提模型的Pk值分别下降了0.38个百分点和2.30个百分点,可见TLT-TS取得了较好的分割效果。  相似文献   

6.
文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。  相似文献   

7.
基于判别分析的数据分析库的设计与实现   总被引:1,自引:0,他引:1  
邓正宏  郑玉山  郑炜 《计算机工程》2003,29(22):101-102,169
判别分析是根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法,对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本去分类。该文以判别分析中的线形判别分析和Mahalanobis距离判别分析作理论依据,提出一种数据分析库的设计和实施方案,该系统在数据分析方面的研究和应用中有一定的特色。  相似文献   

8.
针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法.该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA)方法设计了一组评价函数J,从而实现汉语句群的自动划分.实验结果表明,引入切分片段长度因素和篇章衔接词因素可以改善句群划分性能,并且利用Skip-Gram Model比传统的向量空间模型(VSM)有更好的效果,其正确分割率Pμ 达到85.37%、错误分割率WindowDiff降到24.08%.同时该方法在句群划分任务上有更大的优势,比传统MDA方法有更好的句群划分效果.  相似文献   

9.
龚劬  倪麟  唐萍峰  王菲菲 《计算机应用》2012,32(6):1526-1528
摘要:针对三维Otsu图像分割算法计算复杂度高,运算量大的问题,本文提出一种基于分解的三维Otsu图像分割快速算法。该算法,首先将三维Otsu分解为三个一维Otsu;然后,在分析一维Otsu的基础上,结合类间距离和类内距离,提出一种新的阈值识别函数设计算法,并给出了快速实现方法。实验结果表明,该算法不仅可以取得较好的分割效果,而且计算量较小,比三维Otsu阈值分割递推算法快1400倍左右。  相似文献   

10.
自动提取图像中的文本对图像视频检索具有重要意义.提出了一种基于颜色和笔画特征,应用无监督聚类方法进行复杂背景下的文本分割算法.首先在对文本行图像增强的基础上,应用颜色约减和直方图确定文本颜色.然后提取颜色和笔画特征,应用k-均值聚类算法分割出文本和背景像素.最后应用后处理优化分割结果.实验表明,该算法具有较好的分割效果.  相似文献   

11.
提出了基于核诱导距离度量的鲁棒判别分析算法(robust discriminant analysis based on kernel-induced distance measure,KI-RDA)。KI-RDA不仅自然地推广了线性判别分析(linear discriminant analysis,LDA),而且推广了最近提出的强有力的基于非参数最大熵的鲁棒判别分析(robust discriminant analysis based on nonparametric maximum entropy,MaxEnt-RDA)。通过采用鲁棒径向基核,KI-RDA不仅能有效处理含噪数据,而且也适合处理非高斯分布的非线性数据,其本质的鲁棒性归咎于KI-RDA通过核诱导的非欧距离代替LDA的欧氏距离来刻画类间散度和类内散度。借助这些散度,为特征提取定义类似LDA的判别准则,导致了相应的非线性优化问题。进一步借助近似策略,将优化问题转化为直接可解的广义特征值问题,由此获得降维变换(矩阵)的闭合解。最后在多类数据集上进行实验,验证了KI-RDA的有效性。由于核的多样性,使KI-RDA事实上成为了一个一般性判别分析框架。  相似文献   

12.
基于多重判别分析的朴素贝叶斯分类器   总被引:4,自引:1,他引:4  
通过分析朴素贝叶斯分类器的分类原理,并结合多重判别分析的优点,提出了一种基于多重判别分析的朴素贝叶斯分类器DANB(Discriminant Analysis Naive Bayesian classifier).将该分类方法与朴素贝叶斯分类器(Naive Bayesian classifier, NB)和TAN分类器(Tree Augmented Naive Bayesian classifier)进行实验比较,实验结果表明在大多数数据集上,DANB分类器具有较高的分类正确率.  相似文献   

13.
一种基于马氏距离的线性判别分析分类算法   总被引:7,自引:0,他引:7  
对于一个特定的模式识别问题,表达和识别模式的特征具有不同的形式,它们在物理意义上是完全不同的,而且在数量级具有很大差别。该文提出了一种基于马氏距离的线性判别分析分类算法,选取判别函数为马氏距离,可以适用于具有不同类型特征值的分类问题。将该算法应用于UCI中Credit-A、Credit-G、Iris和Vehicle四个数据库的分类,并采用K次交叉验证方法进行实验。从实验结果中可知,与ENTROPY算法和C4.5(8)算法分类效果相比较,该文所提出的线性判别分析算法计算简单,识别率较高,是一种实际可行的分类算法。  相似文献   

14.
基于笔画提取和颜色模型的视频文字分割算法   总被引:1,自引:0,他引:1       下载免费PDF全文
程豪  黄磊  刘金刚 《计算机工程》2009,35(4):193-195
提出综合利用视频文字时空、笔画、颜色和几何特征的文字分割算法,快速准确地从复杂背景的视频图像中分割出文字。利用多帧融合进行图像增强,基于笔画宽度特征,使用笔画特征算子提取文字笔画,根据笔画图标注的文字区域建立颜色模型,提取文字颜色层,并用改进的连通域分析法去除文字颜色层中的同色背景和噪声。实验结果表明,该算法比传统算法能更好解决复杂背景的视频文字分割问题。  相似文献   

15.
过滤模板的生成是网络信息过滤中一个至关重要的问题。针对模板生成中的非线性特征,借鉴遗传算法可以在全局范围内寻找最优解的特性,引入遗传算法解决文本信息过滤问题,并应用基于集合论的方法证明其理论可行性。在实际应用中,应用遗传算法生成模板进行了文本分类和文本过滤试验,并根据应用过程中存在的问题提出了遗传算子的自适应策略。理论证明以及实验结果都表明,该方法具有可行性,能够在信息过滤中取得较好的结果。  相似文献   

16.
基于自动文本分类的关键词抽取算法   总被引:6,自引:2,他引:4       下载免费PDF全文
张虹 《计算机工程》2009,35(12):145-147
分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来,准确完成抽取关键词的工作,并具有一定的通用性。  相似文献   

17.
基于多帧图像的视频文字跟踪和分割算法   总被引:6,自引:2,他引:6  
视频中文字的提取是视频语义理解和检索的重要信息来源.针对视频中的静止文字时间和空间上的冗余特性,以文字区域的边缘位图为特征对检测结果作精化,并提出了基于二分搜索法的快速文字跟踪算法,实现了对文字对象快速有效的定位.在分割阶段,除了采用传统的灰度融合图像进行文字区域增强方法,还结合边缘位图对文字区域进行进一步的背景过滤.实验表明,文字的检测精度和分割质量都有很大提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号