首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

2.
针对基于特征向量的实体关系抽取方法中分类算法分类精度的不足,提出了基于集成学习算法的实体关系抽取方法.该方法将实体特征组合并转化为特征向量,使用集成学习中的ADABoost.MH算法来构造实体关系抽取的分类器,弱分类器采用决策树进行构造,通过提高分类效果好的分类器的权重和分类错误样本权重的方式来提高分类的精度,从而实现实体关系类别的识别.该方法在对《人民日报》语料库的测试中,得到了比较好的效果.  相似文献   

3.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

4.
基于加权频繁项集的文本分类规则挖掘   总被引:2,自引:0,他引:2  
针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响.实验表明,解决上述两个问题将可以很好的提高文本分类的性能.  相似文献   

5.
基于K-最近距离的自动文本分类的研究   总被引:13,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

6.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

7.
互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.  相似文献   

8.
逻辑回归常用于分类问题中,为了解决传统逻辑回归分类器参数调优问题以及在大数据样本下加快算法的计算速度.首先提出了一种改进的天牛群优化算法(IM-BSO)来优化逻辑回归的超参数,使模型能够自适应地调整参数来达到最优的分类性能.IM-BSO算法采用学习因子与惯性权重的自适应调整策略,每个天牛的惯性权重都不一样,随着适应度值变化而变化.此外,IM-BSO算法融入K-means聚类与拓扑机制,增加了天牛群的多样性.由于IM-BSO算法需要处理的数据量大,计算时间长,随后提出了一种新的分布式改进天牛群优化算法(DIB-SO),结合逻辑回归形成了一个新的分类模型:DIBSO-LR模型.最后,利用该模型对推特评论数据集在不同节点数的情感进行分类,比较加速比.实验结果表明,在一定范围内,数据量越大,随着节点数量的增加,加速效果越明显.证明了DIBSO算法在优化逻辑回归参数上的可行性,显著提高了IM-BSO算法的计算性能.  相似文献   

9.
针对原有的随机森林算法没有区别各个单分类器之间的分类优势,对分类器的组合方案进行优化,提出一种基于最大共识的模型组合算法.该算法将分类器的经验误差和泛化误差融入到分类器的权重计算中,充分发挥了单分类器的个性与优势,强化分类效果好的单分类器的优势,弱化分类效果较差的单分类器的劣势.实验结果表明,基于最大共识模型组合算法能够提升组合分类器的分类性能,在提高分类精度的同时,也具有较强的泛化能力,这一改进对于提升同类型多模型组合算法的性能具有一定指导意义.  相似文献   

10.
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。  相似文献   

11.
汉语分词技术综述   总被引:15,自引:0,他引:15  
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。  相似文献   

12.
指出模糊数学的问题是没有计算,因为支撑模糊集合转换的不是数学计算而是基于“取大取小”和“If…then”型模糊逻辑的专家系统。解决模糊数学问题的途径是,不借用“取大取小”和“模糊逻辑”等辅助性支撑条件来实现模糊集合转换,而是直接研究基于隶属函数的“不确定性转换”。做法是,用构造隶属函数的方法确定目标在单指标下具有某种状态程度的不确定性,进而用隶属度向量表征目标在单指标下的不确定性状态,并把确定目标在多指标下的不确定状态具体化为实现“指标隶属度到目标隶属度转换”。从分析指标隶属度中包含对目标分类的冗余值入手,通过建立一系列定理、推论揭示隶属度转换的非线性转换机理,由此构建实现隶属度转换的非线性计算方法。  相似文献   

13.
文章提出了一种基于内容及格式的文本信息隐藏算法,利用格式文档的特点,按照一定的算法将单词分类,进而在每个句子内以相邻单词构建小组,然后计算整个文本同类型小组内单词间隔符的某些统计特征,并以此为依据嵌入水印,达到隐藏密文信息的目的。实验结果表明:该算法具有较好的隐藏效果,具有一定的抗攻击能力,从而使其鲁棒性有所提高。  相似文献   

14.
贝叶斯文本分类中特征词缺失的补偿策略   总被引:2,自引:0,他引:2  
为了解决朴素贝叶斯分类器在处理文本分类任务时,往往存在的特征词缺失问题,即由于语料库中的词语出现分布情况遵循Zipf定律,仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题.引入统计语言模型中的数据平滑算法,通过从已出现词中"折扣"出一定的概率再分配到未出现词中去,来计算缺失特征词的补偿概率,以此克服数据稀疏问题带来的影响.评测数据在去掉停用词的分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3.05%,比Lidstone方法提高1.00%.而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1.95%.通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题.  相似文献   

15.
为了提高党政机关公文办理的自动化、科学化程度。尝试将业已成熟的汉语多类文本分类技术应用于机关公文办理系统中,并加入专家评估和反馈模块,使该系统具备“渐进式学习”的能力,将公文办理的经验积累在数据库中,不断提高输出结果的准确度。经过实验证实了文本分类技术在党政机关公文办理中的应用价值。  相似文献   

16.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

17.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

18.
为解决电力信息通信客服系统在故障研判时存在故障分类准确率低甚至误分的问题,提出基于层次化类别嵌入的文本分类方法,进行电力信息通信系统故障识别.首先,基于电力信息通信系统故障的用户保修工单文本数据构建电力信息通信系统层次化电力故障标签;其次,提出了基于层次化深层金字塔卷积神经网络和基于层次化中断循环神经网络2种层次化文本分类方法,采用层次化类别嵌入方法逐层进行故障类型分类.实验结果表明,基于层次化深层金字塔卷积神经网络的方法效果最优,可以提供高效、准确的故障识别服务.  相似文献   

19.
To overcome the problem that the confusion between texts limits the precision in text re- trieval, a new text retrieval algorithm that decrease confusion (DCTR) is proposed. The algorithm constructs the searching template to represent the user' s searching intention through positive and negative training. By using the prior probabilities in the template, the supported probability and anti- supported probability of each text in the text library can be estimated for discrimination. The search- ing result can be ranked according to similarities between retrieved texts and the template. The com- plexity of DCTR is close to term frequency and mversed document frequency (TF-IDF). Its distin- guishing ability to confusable texts could be advanced and the performance of the result would be im- proved with increasing of training times.  相似文献   

20.
针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的KNN算法,改良后的新方案能更好地运用在电力客户投诉信息的分类操作上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号