首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
基于特征投票机制设计一种线性文本分类方法,运用信任机制理论分析文档类别对特征的信任关系,给出具体特征信任度的模型,并在Newsgroup、复旦中文分类语料、Reuters-21578 3个广泛使用且具有不同特性的语料集上与传统方法进行比较。实验结果表明,该方法分类性能优于传统方法且稳定、高效,适用于大规模文本分类任务。  相似文献   

2.
基于信任机制设计了一种无须特征选择的高效的线性文本分类方法.面向特征与文档类的信任关系,使用bata概率密度函数评估特征的可靠度,提出特征对文档类的忠诚度的计算模型,基于忠诚度实现简单的线性文本分类器.采用20Newsgroup、复旦中文分类语料、SEWM2007评测语料等3个具有典型特征的单标签语料集,以朴素贝叶斯、KNN为比照算法进行了比较实验.实验结果表明,相对于传统算法,该算法分类性能显著提高,对不均匀语料和高维特征处理表现出很强的稳定性,同时算法执行速度快,适于大规模文本分类.  相似文献   

3.
基于类别分布特征的快速文本分类方法   总被引:2,自引:1,他引:1  
中心和边界是类别分布的重要特征.利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法.依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能.实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率.  相似文献   

4.
为了进一步提高文本分类的准确率,文中介绍了一种新的用于文本分类的概率分类器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。文中给出了计算正负权重系数的算法,并根据计算出来的权重系数及正、负概率值对文本进行分类。将文中提出的概率分类器与SVM分类器进行对比实验,实验结果表明,文中设计的概率分类器对于文本分类效果较好。  相似文献   

5.
一种可靠信任推荐文本分类特征权重算法*   总被引:4,自引:2,他引:2  
从可信计算角度,提出一种可靠信任推荐文本分类特征权重算法,分析了特征在文档中的特性,基于Beta分布函数研究了特征与文档类之间的信任关系,建立特征权重计算模型,并实现简单高效的线性文本分类器。在比较实验中采用20newsgroup和复旦中文语料集。与TFIDF算法进行性能比较,实验结果显示该算法性能较TFIDF显著提高,并对非平衡语料具有良好的适应性。  相似文献   

6.
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能.  相似文献   

7.
海量文本分析是实现大数据理解和价值发现的重要手段,其中文本分类作为自然语言处理的经典问题受到研究者广泛关注,而人工神经网络在文本分析方面的优异表现使其成为目前的主要研究方向。在此背景下,介绍卷积神经网络、时间递归神经网络、结构递归神经网络和预训练模型等主流方法在文本分类中应用的发展历程,比较不同模型基于常用数据集的分类效果,表明利用人工神经网络结构自动获取文本特征,可避免繁杂的人工特征工程,使文本分类效果得到提升。在此基础上,对未来文本分类的研究方向进行展望。  相似文献   

8.
文本分类是自然语言处理领域的一项重要任务,具有广泛的应用场景,比如知识问答、文本主题分类、文本情感分析等.解决文本分类任务的方法有很多,如支持向量机(Support Vector Machines,SVM)模型和朴素贝叶斯(Naïve Bayes)模型,现在被广泛使用的是以循环神经网络(Recurrent Neural Network,RNN)和文本卷积网络(TextConventional Neural Network,TextCNN)为代表的神经网络模型.本文分析了文本分类领域中的序列模型和卷积模型,并提出一种组合序列模型和卷积模型的混合模型.在公开数据集上对不同模型进行性能上的对比,验证了组合模型的性能要优于单独的模型.  相似文献   

9.
训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。  相似文献   

10.
在互联网信息时代,文本数据呈指数增长,如何管理和分析海量的文本数据已经成为一项挑战。近年来,自然语言处理领域中的文本分类研究取得了很大突破。本文阐述了自然语言处理领域中研究文本分类任务中使用的方法及研究进展和成果,介绍了从传统机器学习到深度学习的文本分类任务中所使用的模型,并总结和展望了文本分类在自然语言处理领域的发展趋势。  相似文献   

11.
本文利用文本分类中文本的特点提出了一种基于模糊集的同义词处理的新方法。本方法充分考虑不同文本类型中同义(近义) 词之间的差别,在训练中自动计算不同类型文本中特征词对其对应的同义概念的隶属度,从而实现了用模糊集来定义同义概念;然后应用同义概念来提取文本中的特征值。另外,本系统还利用模糊集来处理多义词的问题。文中给出了系统的处理算法。比较试验的结果表明该方法提高了分类的正确率,效果是令人满意的。整个系统达到了较高的自动化水平和较强的可移植性。  相似文献   

12.
针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表明,相对于单分类器,该方法无论在平面分类和层次分类语料上都获得了更好的分类精度,且具有较好的时间复杂性,有很好的实际应用前景。  相似文献   

13.
针对资源分配网络(RAN)算法存在隐含层节点受初始学习数据影响大、收敛速度低等问题,提出一种新的RAN学习算法。通过均值算法确定初始隐含层节点,在原有的“新颖性准则”基础上增加RMS窗口,更好地判定隐含层节点是否增加。同时,采用最小均方(LMS)算法与扩展卡尔曼滤波器(EKF)算法相结合调整网络参数,提高算法学习速度。由于基于词向量空间文本模型很难处理文本的高维特性和语义复杂性,为此通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。实验结果表明,新的RAN学习算法具有学习速度快、网络结构紧凑、分类效果好的优点,而且,在语义特征选取的同时实现了降维,大幅度减少文本分类时间,有效提高了系统分类准确性。  相似文献   

14.
基于粗糙集的文本分类方法研究   总被引:8,自引:3,他引:8  
本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务:对文本进行了预处理;改进了Okapi 权重计算公式,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。  相似文献   

15.
文本分类中基于位置和类别信息的一种特征降维方法*   总被引:2,自引:0,他引:2  
从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验表明,该方法有较高的文本分类效率。  相似文献   

16.
文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。  相似文献   

17.
为从影片简介中获取更丰富的文本特征并考虑短文本的语义依赖性,构建一种基于卷积双向长短记忆神经网络模型(CBiLSTM)的视频文本特征表示模型。根据用户评分行为习惯的相似性和偏向性,基于受偏置约束的概率矩阵分解算法设计一种混合视频推荐算法(CBiLSTM-PMF+),实现评分预测。在真实数据集上结合IMDB数据库视频简介进行实验仿真,实验结果表明了影片文本局部特征和上下文时序特征结合进行评分预测的合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号