首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

2.
针对审计问题这种短文本所具有的特征稀疏、问题类别界限模糊问题,提出了一种改进的面向审计领域的短文本分类方法。该方法首先为审计问题构造了专门的特征集,以审计领域的同义词词集和法规库为基础,并结合特定规则来调整特征权重,然后以修改的SVM决策树作为多类分类器进行短文本分类。实验结果表明,该方法在对审计问题分类的应用上,具有较为满意的正确率,能满足实际的分类需求。  相似文献   

3.
在中文文本分类任务中,针对重要特征在中文文本中位置分布分散、稀疏的问题,以及不同文本特征对文本类别识别贡献不同的问题,该文提出一种基于语义理解的注意力神经网络、长短期记忆网络(LSTM)与卷积神经网络(CNN)的多元特征融合中文文本分类模型(3CLA)。模型首先通过文本预处理将中文文本分词、向量化。然后,通过嵌入层分别经过CNN通路、LSTM通路和注意力算法模型通路以提取不同层次、具有不同特点的文本特征。最终,文本特征经融合层融合后,由softmax分类器进行分类。基于中文语料进行了文本分类实验。实验结果表明,相较于CNN结构模型与LSTM结构模型,提出的算法模型对中文文本类别的识别能力最多提升约8%。  相似文献   

4.
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。  相似文献   

5.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

6.
提出了一个基于支持向量机的医学图像分类器.能提取形状和纹理特征作为分类算法的特征输入,进行计算机辅助诊断.提出了一种支持向量机新算法,解决了当两类中的样本数量差别较大时,支持向量机的分类能力将会下降的问题.实验表明,在小样本、两类样本数量严重不均衡的情况下,该算法有着较强的分类能力,可以极大地提高医学图像分类的效率和准确性.  相似文献   

7.
针对现有行人检测算法未考虑正负样本非均衡性及分类器间所需的差异性的不足,提出一种同时考虑分类器多样性及正负样本非均衡性的行人检测算法.首先,在分类器中引入代价敏感的思想,通过设置适宜的代价敏感参数值,使分类器更加关注数量较少且更为重要的行人正样本;进而,通过动态调整对分类算法性能影响较大的核函数参数σ的选择,形成一组相互间有差异且分类性能适度精确的一组分类器,并对分类器之间的相似度进行对比,剔除相似度高的分类器;最后,将剩余分类器级联组合.实验证明,和经典算法相比,提出的算法有利于提高行人检测精度,且虚警率更低.  相似文献   

8.
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。  相似文献   

9.
胡正平  路亮  许成谦 《电子学报》2012,40(1):134-140
 已有单类分类算法通常采用欧氏测度描述样本间相似关系,然而欧氏测度有时难以较好地反映一些数据集样本的内在分布结构,为此提出一种用于改善单类分类器描述性能的高维空间单类数据距离测度学习算法,与已有距离测度学习算法相比,该算法只需提供目标类数据,通过引入样本先验分布正则化项和L1范数惩罚的距离测度稀疏性约束,能有效解决高维空间小样本情况下的单类数据距离测度学习问题,并通过采用分块协调下降算法高效的解决距离测度学习的优化问题.学习得到的距离测度能容易地嵌入到单类分类器中,仿真实验结果表明采用学习得到的距离测度能有效改善单类分类器的描述性能,特别能够改善覆盖分类的描述能力,从而使得单类分类器具有更强的推广能力.  相似文献   

10.
王俊岭  彭雯  蔡焱 《电视技术》2017,(11):40-45
针对浅层次大规模图像分类的低精度问题,提出深层次特征学习的Adaboost图像分类算法.首先以DBN作为弱分类器对样本图像进行学习,根据每次训练得到的分类错误率以及各样本的分类准确性调整权值;然后在所有弱分类器训练好以后,使用BP算子回溯再次整体调整体样本权值;最后将所有弱分类器集成强分类器,输出最终分类结果.使用MNIST和ETH-80两种数据集进行实验仿真,并将分类结果与其他算法进行比较.结果表明所提算法的分类精度明显高于其他算法,有效实现了高精度的大规模图像分类.  相似文献   

11.
针对不平衡数据的分类问题,本文提出了一种新的方法,将特征选择应用在不平衡数据集中,首先对数据集进行预处理,然后从特征选择的角度出发,选择具有较强能力代表数据集的特征,简化数据的同时也提高了分类性能。通过实验表明,该方法能够有效地提高分类精度。  相似文献   

12.
方澄  李贝  韩萍 《信号处理》2021,37(6):1066-1074
网络社交的流行与普及,使得微博等短文本区别于以往传统文章,具有了独有的文学表达形式和情感发泄方式,导致基于短文本的机器学习情感分析工作难度逐渐增大。针对微博短文本的语言表达新特性,爬取收集大量无情感标记微博数据,建立微博短文本语料库,基于全局语料库构建词与短文本的全局关系图,使用BERT(Bidirectional Encoder Representations from Transformers)文档嵌入作为图节点的特征值,采用图卷积进行节点间的特征传递和特征提取。采样部分无情感标记微博数据进行人工标注,采用半监督机器学习方法结合全局关系图提高情感分类器的性能,实验表明通过无情感标记数据比例的增加,该方法可以更好地捕捉全局特征,提高情感分类的精度。在自建人工标记数据、COAE2014数据集和NLP&CC2014数据集上进行了对比实验,实验结果表明该方法在精确率和召回率上均具有很好的表现。   相似文献   

13.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

14.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

15.
贾永强  甘露 《信号处理》2016,32(10):1146-1152
针对民用船舶自动报告系统通信辐射源个体识别问题,该文提出一种基于信号暂态稀疏表示的个体识别方法。该算法求解一个充分利用信号暂态样本类别信息且可保持样本稀疏表示结构的投影变换,来提取低维个体特征矢量。该算法通过最大化类间特征的重构误差和最小化类内特征的重构误差来构造目标函数求解投影变换,并在低维辨别子空间以最小稀疏表示重构误差准则来判定测试样本类别属性。对实际数据处理结果表明该文提出的新算法可有效识别不同辐射源个体;对辐射源暂态信号建模仿真结果,验证了该文算法的正确性和有效性,且平均正确识别率优于现有算法。   相似文献   

16.
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。  相似文献   

17.
桑成伟  孙洪 《信号处理》2017,33(11):1405-1415
极化SAR图像分类是一个高维非线性映射问题,稀疏表示(CS)对于解决此类问题具有很大潜力。字典学习在基于CS的分类中起到重要作用。本文提出了一种新的字典学习模型,用于增强字典的区分能力,使其更适合极化SAR图像分类。提出的模型根据字典中两类子字典在分类中的作用对其相应的表达系数施加不同的稀疏约束。为使共同子字典能够抓住所有类共享的特征,对其相应系数施加稀疏约束,为使类专属子字典能够抓住类内独享的局部和全局结构特征,对其相应系数同时施加稀疏和低秩约束。由于共同子字典表达所有类共享的特征,我们以测试样本在类专属子字典上的重建误差作为准则进行分类。本文在AIRSAR的Flevoland数据集上对此算法进行验证,实验结果验证了算法的有效性。   相似文献   

18.
Nowadays short texts can be widely found in various social data in relation to the 5G-enabled Internet of Things (IoT). Short text classification is a challenging task due to its sparsity and the lack of context. Previous studies mainly tackle these problems by enhancing the semantic information or the statistical information individually. However, the improvement achieved by a single type of information is limited, while fusing various information may help to improve the classification accuracy more effectively. To fuse various information for short text classification, this article proposes a feature fusion method that integrates the statistical feature and the comprehensive semantic feature together by using the weighting mechanism and deep learning models. In the proposed method, we apply Bidirectional Encoder Representations from Transformers (BERT) to generate word vectors on the sentence level automatically, and then obtain the statistical feature, the local semantic feature and the overall semantic feature using Term Frequency-Inverse Document Frequency (TF-IDF) weighting approach, Convolutional Neural Network (CNN) and Bidirectional Gate Recurrent Unit (BiGRU). Then, the fusion feature is accordingly obtained for classification. Experiments are conducted on five popular short text classification datasets and a 5G-enabled IoT social dataset and the results show that our proposed method effectively improves the classification performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号