首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。  相似文献   

2.
一种基于类内类间距离的ICA特征选择方法   总被引:1,自引:0,他引:1  
独立分量分析(ICA)可以实现特征提取,但不能直接用于特征选择。对数据进行ICA后得到混合矩阵和独立分量,独立分量可以作为特征矢量,混合矩阵可以用于进行特征选择。首先,使用一种距离度量来计算混合矩阵每一类的类内类间距离比;然后对每一类按该比值由小到大重新排列混合矩阵和独立分量,保留权重矩阵中类间类内距离比大的列,及其对应的特征向量;最后对这些特征向量使用遗传算法选择最优特征组。两个实验验证了该方法的有效性。  相似文献   

3.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大.遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化.另外,本文提出基于<知网>特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维.实验结果表明,基于<知网>和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定.  相似文献   

4.
对雷达信号全脉冲数据的有效预分选关键在于获取全脉冲数据的有效特征参数。提出了用独立分量分析(ICA)算法对雷达信号高维全脉冲数据提取特征参数,通过利用分类器、聚类比较不同的特征提取方法的性能,仿真结果验证了ICA算法的有效性。  相似文献   

5.
基于独立分量分析的高光谱图像目标检测算法   总被引:1,自引:0,他引:1  
提出一种基于独立分量分析(ICA)的高光谱图像目标检测算法.首先利用无监督正交子空间投影进行端元提取,并将端元矢量构成矩阵作为快速定点独立分量分析的初始化混合矩阵,解决了独立分量在排序上的随机性;同时采用基于噪声调整的主分量分析(NAPCA)对原始图像数据降维,继而采用初始化后的快速独立分量分析从保留的主分量中依次提取出目标.利用AVIRIS高光谱数据进行实验研究,结果表明提出的算法能够有效地提取图像中的目标信息,其性能优于改进的CEM检测算法.  相似文献   

6.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。  相似文献   

7.
使用谱聚类算法解决文本聚类集成问题   总被引:1,自引:0,他引:1  
采用2个不同的谱聚类算法解决文本聚类集成问题.为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度.分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性.在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题.  相似文献   

8.
描述了一个网络舆情监控系统的设计与实现方法。系统由舆情信息采集及预处理、舆情分析和舆情服务组成,通过网络爬虫对网页内容进行提取,运用DOM树获得文本信息,并进行网页的去重,运用ICTCLAS进行分词,提取特征词并构建VSM向量空间模型,通过k-means聚类算法获得热点话题,并利用HowNet进行文本情感倾向性分析。提高了网络舆情监控与分析的准确性、即时性,为正确地引导舆论提供了分析依据。  相似文献   

9.
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。  相似文献   

10.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文...  相似文献   

11.
提出了一种基于色彩距离最小化和最大 色彩差(MCD)的场景文本定位方法。首先,使用多次K均值 聚类和色彩距离最小化的方法,从不同复杂程度的场景图像中提取文本 连通区域;考虑到色彩聚类方法容易受光照影响,使用基于MCD最大色彩差的方法,提取 文本连通区域作为补充,由于将 色彩与梯度信息相结合,在一定程度上能克服光照的影响;将得到的连通区域通过设 定的字符合并规则,构建文本行; 候选文本行中通常包含错误检测的非文本行,为了提高文本检测的正确率,最后采用基于特 征提取和机器学习的方法,验证 候选文本行,得到文本定位结果。将本文方法在ICDAR2011和ICDAR2013公共数 据库上实验,对于ICDAR2011数据集,本文 获得的召回率、准确率和F指标分别为0.66、0.77;对于ICDAR2013数据集,本文获得的召回率、准确率和F 指标分别为0.65、0.77。将本文方法与 其它文本检测算法比较,结果表明本文方法的可行性、有效性。  相似文献   

12.
Active Shape Model (ASM) is a powerful statistical tool to extract the facial features of a face image under frontal view. It mainly relies on Principle Component Analysis (PCA) to statistically model the variability in the training set of example shapes. Independent Component Analysis (ICA) has been proven to be more efficient to extract face features than PCA. In this paper, we combine the PCA and ICA by the consecutive strategy to form a novel ASM. Firstly, an initial model, which shows the global shape variability in the training set, is generated by the PCA-based ASM. And then, the final shape model, which contains more local characters, is established by the ICA-based ASM. Experimental results verify that the accuracy of facial feature extraction is statistically significantly improved by applying the ICA modes after the PCA modes.  相似文献   

13.
在医疗领域中,实体识别能够从大规模电子病历文本中提取有价值信息,由于缺乏定位实体边界的特征以及存在语义信息提取不完整等问题,中文的命名实体识别(NER)实现更加困难。该文提出一种针对中文电子病历的结合多特征嵌入和多网络融合的模型(MFE-MNF)。该模型嵌入多粒度特征,即字符、单词、部首和外部知识,扩展字符的特征表示,明确实体边界。将特征向量分别输入到双向长短期记忆神经网络(BiLSTM)和该文构建的自适应图卷积网络等双通路中,全面深入地捕获上下文语义信息和全局语义信息,缓解语义信息提取不完整问题。在CCKS2019和CCKS2020数据集上进行实验验证,结果表明,相比于传统实体识别模型,该文模型能够准确且有效地提取实体。  相似文献   

14.
Since webpage classification is different from traditional text classification with its irregular words and phrases, massive and unlabeled features, which makes it harder for us to obtain effective feature. To cope with this problem, we propose two scenarios to extract meaningful strings based on document clustering and term clustering with multi-strategies to optimize a Vector Space Model (VSM) in order to improve webpage classification. The results show that document clustering work better than term clustering in coping with document content. However, a better overall performance is obtained by spectral clustering with document clustering. Moreover, owing to image existing in a same webpage with document content, the proposed method is also applied to extract image meaningful terms, and experiment results also show its effectiveness in improving webpage classification.  相似文献   

15.
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。  相似文献   

16.
基于遗传算法的基因分类   总被引:2,自引:1,他引:1       下载免费PDF全文
独立分量分析(ICA)是应用于基因分类的一种统计方法.但独立分量分析中的估计分离矩阵算法主要采用了随机梯度算法、自然梯度算法,这些基于梯度下降的寻优算法很容易陷入局部极值,所得结果不精确.本文提出了一种基于遗传算法的基因分类算法,其基本思想是利用遗传算法代替独立分量分析中的传统的估计分离矩阵算法,对基因表达式数据进行分类,从而克服了结果不精确的问题.分析和实验结果表明,该分类方法获得了更好的分类效果.  相似文献   

17.
自然场景文本检测是图像内容分析和理解的重要前提.本文提出一种基于自适应色彩聚类和上下文信息分析的方法,用于检测自然场景图像文本.首先,将层次聚类和参数自学习策略结合,设计一种自适应色彩聚类方法,提取图像中的候选字符.该自适应色彩聚类方法能针对不同图像自动学习权重阈值,有较好的字符召回率.然后,利用文本中字符成行出现的性质,设计一种基于上下文信息的字符验证策略,既能保证较高字符召回率,也能有效移除非文本字符.最后,合并字符构建文本行,并通过后处理得到文本检测结果.在ICDAR2013公共数据集上的实验结果表明:本文分别获得74.17%的召回率,83.40%的准确率和78.52%的F得分.与其他文本检测方法相比,本文获得了较好的文本检测性能,说明本文方法的优越性.  相似文献   

18.
Discriminating between the text and non text regions of an image is a complex and challenging task. In contrast to Caption text, Scene text can have any orientation and may be distorted by the perspective projection. Moreover, it is often affected by variations in scene and camera parameters such as illumination, focus, etc. These variations make the design of unified text extraction from various kinds of images extremely difficult. This paper proposes a statistical unified approach for the extraction of text from hybrid textual images (both Scene text and Caption text in an image) and Document images with variations in text by using carefully selected features with the help of multi level feature priority (MLFP) algorithm. The selected features are combinedly found to be the good choice of feature vectors and have the efficacy to discriminate between text and non text regions for Scene text, Caption text and Document images and the proposed system is robust to illumination, transformation/perspective projection, font size and radially changing/angular text. MLFP feature selection algorithm is evaluated with three common ML algorithms: a decision tree inducer (C4.5), a naive Bayes classifier, and an instance based K-nearest neighbour learner and effectiveness of MLFP is shown by comparing with three feature selection methods with benchmark dataset. The proposed text extraction system is compared with the Edge based method, Connected component method and Texture based method and shown encouraging result and finds its major application in preprocessing for optical character recognition technique and multimedia processing, mobile robot navigation, vehicle license detection and recognition, page segmentation and text-based image indexing, etc.  相似文献   

19.
基于随机非负独立元分析的掌纹识别   总被引:2,自引:2,他引:0  
提出运用随机非负独立元分析(SN—ICA)的新方法进行掌纹识别。为了减少计算量,运用SN-ICA算法前,先采用主元分析(PCA)算法去除掌纹图像的二阶统计特征相关性,其余的高阶非负统计特征由SN-ICA分离。首先用PCA和SN-ICA提取投影向量,然后将训练图像和待识别图像向投影向量上投影得到低维特征向量,最后计算特征...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号