首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于集成合并的文本特征提取方法   总被引:1,自引:1,他引:0  
文本分类是在给定的分类体系下,根据文本的内容自动确定文本类别的过程.在文本分类中,特征的提取对于分类的结果相当重要.从特征提取这一阶段出发,提出了一个集成合并的特征提取方法,该方法主要集成多种特征提取方法并合并关系密切的特征,并利用支持向量机SVM(Support Vector Machine)分类的高准确率,能够求出全局最优方法等优点来对得到的特征向量进行分类评估.实验证明,此种特征提取能够降低分类时间和提高分类的准确率.  相似文献   

2.
基于SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。  相似文献   

3.
姜鹤  陈丽亚 《微机发展》2010,(3):17-19,23
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。  相似文献   

4.
SVM文本分类中一种新的特征提取方法   总被引:1,自引:0,他引:1  
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。  相似文献   

5.
基于词组学习的视频文本检测方法   总被引:2,自引:1,他引:1       下载免费PDF全文
朱成军  蒲菊华  薛玲  熊璋 《计算机工程》2008,34(13):185-187
提出一种以词组作为模式识别对象的中英文视频文本检测算法,其根据视频中文本的笔画结构特点和聚集特性构造一个18维的特征向量,利用支持向量机将视频帧分为文本和非文本区域,通过多分辨率模型检测不同尺寸的文本,采用扩张-收缩的后处理过程校准文本区域位置。实验结果表明,该算法的检测准确率达93.17%,误检率仅为0.73%。  相似文献   

6.
文学志  袁淮  赵宏 《计算机工程》2008,34(14):210-212
提出一种基于低对比度图像的车辆检测算法。对图像分割算法得到的感兴趣区域(ROI)进行预处理,利用Haar小波特征提取算法提取ROI的图像边缘及纹理特征,利用支持向量机对ROI进行车辆检测。实验结果表明,该方法对车辆检测率达到90.6%,误报率为3.8%。通过再学习还可以进一步提高算法的识别性能。  相似文献   

7.
文本分类作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,有着广泛的应用前景。但传统的模式识别方法在处理问题时通常需建立准确的数学模型,而且在解决非线性问题时很难有好的表现。支持向量机在维数灾难方面有很好的表现,并且在小样本数据中有良好的应用。本文集中于文本分类识别问题,并应用到电信领域,取得了满意的结果。  相似文献   

8.
对于目前火灾探测方法中存在检测率低、误报率高的普遍现象,提出了一种基于融合特征与支持向量机(SVM)的视频火焰检测算法。使用一种改进自适应混合高斯建模法获得视频里的运动目标,并结合火焰颜色模型分离出火焰疑似区域;获取疑似区域的动态、几何、纹理等特征;融合特征量,利用已训练的SVM完成识别。在测试视频集上的实验结果表明,该算法检测效果好,且耗时短。  相似文献   

9.
信息安全是全球关注的重要话题。但Internet的复杂性、可访问性和开放性带来了日益增长的严重的信息系统安全的威胁。论文介绍了一种使用支持向量机和神经网络的入侵监测系统。主要思想是发现用以描述用户在系统上行为的模式与特征,用一系列相关的特征建立分类器去进行异常检测,希望能够实时地发现入侵。通过比较基于神经网络和支撑向量机的入侵检测系统,利用两者各自的优势,构造了一种新的入侵检测系统。  相似文献   

10.
针对以通信节点为基础的无线传感器网络作为物联网基础设施开始临越来越多的信息安全威胁,提出一种基于RBM特征提取和多层SVM检测的无线传感网络入侵检测方法,将收集到的高维网络数据进行特征信息提取并结合网络拓扑结构及攻击流量相似性分层检测入侵行为。实验仿真采用NSL_KDD公共入侵检测数据集,实验结果表明该模型对网络流量检测准确率为99.06%。  相似文献   

11.
针对CTPN算法不能检测倾斜文本和小尺度文本检测效果差的问题,提出一种基于旋转变量的改进文本检测算法(CTPN-R)。通过增加旋转角度预测层,将文本行拆分成一系列带旋转角度的anchor用于网络训练解决文本倾斜问题,加入特征融合层构建特征图金字塔以检测多尺度文本,改进边缘细化层的输出变量和回归方法,优化文本连接。CTPN-R在倾斜文本数据集MSRA-TD500上的检测综合性能指标F-measure达到了77.5%,比CTPN提高了38%。仿真结果表明,CTPN-R对实际场景中的文本图像检测精度高、实时性好,可以检测任意大小、任意方向文本。  相似文献   

12.
斯琴  张力  廉德亮 《计算机应用》2009,29(9):2348-2350
基于格式的文本水印算法对格式攻击的鲁棒性比较差,而基于自然语言的文本水印算法相对难以实现,因此提出一种基于词频的文本零水印算法。对文本内容进行分词并计算每个分词的词频,根据设定的词频阈值范围依次提取分词序列作为文本特征,将文本特征、水印和密钥注册于版权保护(IPR)信息库。水印检测可实现盲检测。将该算法用于含有图像等多媒体信息的中英文文档,试验结果证明,该算法对剪切、粘贴、内容顺序颠倒等攻击有较强的鲁棒性。  相似文献   

13.
提出一种彩色图像下的文本提取方法,该方法对彩色图像在R、G、B三个颜色层分别进行亮度分级,以避开传统颜色聚类方法的聚类数目选择问题,降低图像复杂度;考虑到文字笔画的显著方向性特征,并且通常具有稳定的颜色,利用方向梯度算法进行文本粗定位;然后进一步利用多类SVM分类器实现文本区域精确判别。新方法限制了候选区域的种类,从而降低了SVM分类器的训练难度,具有较高的准确性和鲁棒性。  相似文献   

14.
结合笔画方向信息与SVM的英文文字检测   总被引:1,自引:0,他引:1       下载免费PDF全文
文字检测是文字信息提取系统中最重要的环节。针对在非均匀光照或背景图案复杂等恶劣环境下文本行难以被检测的难题,设计一种通用的基于笔画方向信息图的通用文字检测算法,该算法采用由粗到细的实现框架。在粗的文字行定位中,利用Haar小波和LBP描述符,建立与原图像相对应的笔画方向信息图,经滤波,连通域分析以及PPA后得到候选的文字行;在文字行精确分类中,利用SVM分类器,并结合多种文字的纹理特征,确认最终的文本行区域。针对图片数据库ICDAR03的实验表明该算法能在不同条件下快速,准确地检测出文字区域,文字检测的精确率为0.64,召回率为0.67。  相似文献   

15.
文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题, 提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况, 而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验, 并与一些传统的特征选择方法进行了比较。从结果来看, 本方法在所选特征数更少的情况下, 达到了比其他方法更高的分类MacroF1值853%, 比传统的IG和CHI等方法在MacroF1值上分别高出了43%和61%。  相似文献   

16.
当前,常用文本分类特征选择算法主要通过某种评价函数来计算单个特征对类别的区分能力,由于仅考虑了特征和类别之间的关联性,忽略了特征与特征之间的相关性,从而导致特征集存在冗余。针对这一问题,本文提出了一种新的用于文本分类的特征选择算法,该算法可以帮助选出类别区分能力强,特征之间关联性弱的特征。实验证实,该算法的性能要优于传统的特征选择算法。  相似文献   

17.
针对现有优秀的anchor-free文本检测方法只挖掘了文本框几何特性而没有考虑文本框位置特性且缺乏有效的过滤机制,提出了挖掘文本框位置特性的anchor-free自然场景文本检测方法.该方法以ResNet50作为卷积神经网络的主干网络,将多个不同尺寸的特征层融合后预测文本框的几何特性和位置特性,最后辅之以二层过滤机制得到最终的检测文本框.在公开的数据集ICDAR2013和ICDAR2011上F值分别达到了0.870和0.861,证明了该方法的有效性.  相似文献   

18.
文本分类中一种新的特征选择方法   总被引:11,自引:0,他引:11  
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法。在分析了常用的一些特征选择的评价函数的基础上,提出了一个新的评价函数,即互信息比值。实验证明这一方法简单可行,有助于提高所选特征子集的有效性。  相似文献   

19.
为了解决传统分析方法在直流供电系统中电弧故障检测的精确度不足及过程繁琐的问题,将直流电弧故障检测归为二分类问题,引入机器学习方法,通过直流电弧实验得到正常状态和电弧状态的数据,从时域中提取电流均值等4个特征,从频域中提取高频分量标准差等3个特征.利用提取到的特征对支持向量机(SVM)进行训练,利用求解得到的模型对测试数据集进行分类,分类准确率为94.483%.结果证明:所提方法能有效检测直流电弧故障,提高故障检测精度,且步骤精简,易于推广.  相似文献   

20.
特征提取是文本抄袭检测的重要环节,文本特征的数量和质量严重影响文本抄袭检测的准确率。针对现有方法的不足,提出一种基于依存句法的文本抄袭检测算法。该算法在依存句法分析的基础上,通过分析句子中词语间的关系以及合并短小词语建立句法框架,进而提取文本特征。其中,短小词语的合并能够使无意义词语合并成为有意义实体来表示文本特征,使文本特征更全面。实验结果表明,该文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号