首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
豆增发 《现代导航》2014,5(3):214-218
为了在文本数据中选择有效的文本特征,本文提出一种新的基于改进二进制粒子群优化的特征选择算法,该算法利用翻转角度,局部翻转因子和全局翻转因子来决定粒子群的进化,通过求解目标函数的最优解,得到二进制特征选择系数,选择特征选择系数为1的特征为有效特征。实验证明,该方法不仅有效地降低了运算开销,而且提高了文本分类的准确度。  相似文献   

2.
一种基于改进K-means聚类的文本特征选择模型   总被引:2,自引:1,他引:1  
介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集里孤立点的剔除改善了特征聚类效果.随后的文本分类试验表明,提出的改进的算法具有较好的特征选择效果,文本分类的效率较高.  相似文献   

3.
互联网在全球的普及和应用的不断发展,推动了数据挖掘和知识发现技术,而文本分类作为处理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和热点.由于贝叶斯方法具有运行快速、易于实现的特点,它被广泛应用于各种文本分类及信息检索系统.本文着重研究和分析了几个不同的特征选择方法,将贝叶斯的文本分类方法和改进了的特征选择方法结合起来实现了训练算法、特征选择算法和分类算法.  相似文献   

4.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

5.
文中研究对于中文的新闻文本分类过程中如何进行文本特征提取的问题。新闻文本数据是嵌在各种网页中的,因为其句子较长,来源广泛,内容驳杂的特点,传统特征提取方法不能达到很好的效果。文中提出一种新的分类能力指数用于特征选择,并对TF-IDF算法做出改进用于加权计算。经实验验证,文中改进算法比原特征选择、权重计算算法有更高的准确性。  相似文献   

6.
中文文本分类的主要问题是特征空间的高维性.提出了基于混沌二进制粒子群的KNN文本分类算法,利用混沌二进制粒子群算法遍历训练集的特征空间,选择特征子空间,然后在特征子空间中使用KNN算法进行文本分类.在粒子群的迭代优化过程中,利用混沌映射,指导群体进行混沌搜索,使算法摆脱局部最优,扩大寻找全局最优解的能力.实验结果表明,提出的新分类算法对中文文本分类是有效的,其分类准确率、召回率都优于KNN算法.  相似文献   

7.
通过在不同文本数据集上的试验表明,文中提出的算法具有不错的表现。与文本分类中常用的特征选择算法IG、CHI相比,文中算法是有效的且能够提高分类的精确率。  相似文献   

8.
文本的特征选择可以被看成是组合优化问题,而遗传算法是求解此类问题的较好方法。在遗传算法的基础上,提出了一种新的算法-免疫算法,用于文本的特征选择,通过免疫算子的构造,减轻了遗传算法后期的波动现象,提高了收敛速度。  相似文献   

9.
一种改进的文本特征选择算法   总被引:2,自引:0,他引:2  
在文本挖掘中,文档通常以特征向量的形式表示。为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,提出一种改进的特征选择算法,该算法对特征进行综合考虑,从而更加准确地选取有效的特征。实验验证了改进算法的可行性和有效性。  相似文献   

10.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。  相似文献   

11.
Feature selection is one of the important topics in text classification. However, most of existing feature selection methods are serial and inefficient to be applied to massive text data sets. In this ease, a feature selection method based on parallel collaborative evolutionary genetic algorithm is presented. The presented method uses genetic algorithm to select feature subsets and takes advantage of parallel collaborative evolution to enhance time efficiency, so it can quickly acquire the feature subsets which are more representative. The experimental results show that, for accuracy ratio and recall ratio, the presented method is better than information gain, x2 statistics, and mutual information methods; the consumed time of the presented method with only one CPU is inferior to that of these three methods, but the presented method is superior after using the parallel strategy.  相似文献   

12.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

13.
有些文本缺少字符集信息,因而阻碍了字符信息的正确解析。为了获得字符集信息可以根据文本中字符信息的统计特征以及各种字符集之间的差异来识别出文本的字符集。集成的字符集检测方法通过综合应用编码模式检测方法、字符分布方法和双字符序列检测方法来检测字符集。它根据算法复杂度和每种算法的准确率来调度算法,使得在用一种方法不能确定字符集的情况下利用其它方法来检测出字符集实验结果表明:集成的字符检测技术具有较高的准确率。集成的字符检测方法在某些情况下通过适度增加一些时间来获得较高的精度。  相似文献   

14.
图像文本跨模态匹配是计算机视觉与自然语言处理交叉领域的一项重要任务,然而传统的图像文本跨模态匹配方法要么只考虑到全局图像与全局文本匹配,要么只考虑到局部图像与局部文本匹配,无法全面有效的考虑局部和全局信息,导致提取出来的特征信息不完善.或者只是简单的对全局图像与全局文本特征进行提取,局部细节信息无法凸显,导致全局特征无...  相似文献   

15.
传统推荐算法通过主题模型或者词语向量化的平均值对文本内容进行映射。针对现有方法不能充分利用文本信息或忽略词序信息这一问题,文中面向科学文献,提出了一种多任务学习推荐方法。该方法基于多任务学习框架,设计编码器并搭建了GL模型。该模型被训练为内容推荐与文本元数据预测的组合,可改善传统协同过滤的稀疏性问题,使得协同过滤模型正则化。最后,分别在公开数据集与私有数据集上进行了评估测试,结果表明所提方法性能优于现有的经典方法。  相似文献   

16.
对海量数据进行聚类,从中获取有价值的隐含知识,已经成为一项迫切的需求。传统的基于词频或距离的文本聚类技术在准确度方面存在较大差距。引入文本语义信息的聚类方法,提高了聚类的准确度。实验结果表明,基于语义特征的模糊聚类算法具有较好的聚类效果。  相似文献   

17.
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性.  相似文献   

18.
李翌昕  马尽文 《信号处理》2017,33(4):558-571
对自然场景中的文字进行识别和理解是大量计算机视觉应用的基础。文本检测算法旨在识别出自然图像中的文字信息,目前已经成为计算机视觉和智能信息处理领域研究的一个热点。本文首先对文本检测算法的目标、技术路线及其所面对的挑战进行了分析与介绍。然后回顾了几种经典的文本检测算法,并介绍了两种代表最新研究趋势的深度学习型文本检测算法。进一步,本文阐述了几个主流的文本检测数据集并总结了一些代表性文本检测算法在这些数据集上的检测结果。最后,本文讨论了文本检测的研究现状、面临的挑战和发展的趋势。   相似文献   

19.
Two algorithms are presented for compressing image documents, with a high compression ratio for both colour and monochromatic compound document images. The proposed algorithms apply a new method of segmentation to separate the text from the image in a compound document in which the text overlaps the background. The segmentation method classifies document images into three planes: the text plane, the background (non-text) plane and the text's colour plane, each of which are processed using different compression techniques. The text plane is compressed using the pattern matching technique, called JB2. Wavelet transform and zerotree coding are used to compress the background plane and the text's colour plane. Assigning bits for different planes yields high-quality compound document images with both a high compression ratio and well presented text. The proposed algorithms greatly outperform two well known image compression methods, JPEG and DjVu, and enable the effective extraction of the text from a complex background, achieving a high compression ratio for compound document images.  相似文献   

20.
文章针对黑客最新的Akast XSS渗透攻击手段,利用Web站点文本交互,嵌入诱导攻击于文字代码,成功躲避信息安全防范攻击;列举了获取后台系统信息过程;提出了不同环境下的防范方法,警示系统漏洞危害和Web站点安全。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号