首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
基于SVM的中文文本分类算法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的中文文本分类算法,介绍了文本分类过程中的文本表示、特征提取和SVM算法等关键技术.最后进行了实验和分析,由实验结果可以看出,该方法在精确率和召回率等方面能够达到比较好的效果.  相似文献   

2.
讨论了文本分类系统中的特征提取方法.探讨了文档频率(DF)、信息增益(IG)、互信息算法(MI)三种不同的特征提取方法对中文文本分类的影响,并提出了一种结合信息增益和互信息的特征提取方法.实验表明本文提出的特征提取方法一定程度上提高了中文文本分类准确性.  相似文献   

3.
目前有多种特征提取方法用于文本自动分类,其中CHI方法效果较好,研究发现CHI方法存在着词与类别的无独立性假设及计算复杂度高等缺点,提出一种改进了的CHI方法ICHI(ImprovedCHI),通过分类实验仿真数据显示,在SVM与KNN分类中这种改进后的特征提取方法ICHI特征提取效果优于传统的CHI方法,改进后的方法ICHI能提高文本分类的准确率,适合局部特征提取.  相似文献   

4.
中文文本分类中基于词性的特征提取方法研究   总被引:6,自引:0,他引:6  
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法——基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

5.
传统的流形学习局部线性嵌入 (locally linear embedding, LLE) 算法通过欧氏距离来选择邻域,如果数据集选自多个类别,这种距离度量方法无法得到正确的邻域关系。本研究提出一种改进的局部线性嵌入 (modified LLE,MLLE) 算法,该算法通过改进距离矩阵,使得类间的距离大、类内的距离小,从而使得邻域的选择尽量在一个类中。将MLLE算法应用到中文文本分类中,结果表明:与传统的算法比较,MLLE在分类结果可视化效果和识别率等方面都有显著提高。  相似文献   

6.
文本分类常采用的算法一般是基于向量比较的分类技术.文本中关键字较多,形成的特征向量维数相当高,因而会导致分类比较处理的运算量太大,而降低维数后又会不可避免地丢失有用信息.将粗糙集理论应用于分类处理过程中可有效地解决此问题.  相似文献   

7.
中文文本分类的特征选取评价   总被引:9,自引:0,他引:9  
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种特征选取方法(文档频度DF、互信息MI、信息增益IG、x^2统计X^2、术语强度TS)进行评价,选用Naive Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x^2的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的F1值为64.60%;IG为69.36%,而DF则达到87.01%.  相似文献   

8.
介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法.该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施.实验表明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高.  相似文献   

9.
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。  相似文献   

10.
11.
旅游文化视阈下的旅游资料翻译   总被引:1,自引:0,他引:1  
旅游属于文化范畴,是文化的一部分.文化孕育旅游,而旅游又反过来给予文化以影响和作用,二者关系密切.旅游文化的基本特点是民族性,此外还表现在文化求异和求同的统一性、大众性和双向扩散性.在旅游文化视阁下,翻译旅游资料时,应根据旅游文化所体现的具体情况,结合英语语言和文化的特点,译成符合外国游客接受能力和审美需求的英语.  相似文献   

12.
基于特征信息增益权重的文本分类算法   总被引:8,自引:0,他引:8  
为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG)特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C.它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类.这3种算法都具有较低的时间复杂度和实现简单的特点.实验结果表明,其中IG-C的分类效果最为理想.  相似文献   

13.
基于改进TF-IDF算法的文本分类方法研究   总被引:3,自引:0,他引:3       下载免费PDF全文
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

14.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题, 提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先, 通过特征选择的方法, 对情感词典中的词进行重要度评分并赋予不同权重.然后, 基于词典极性的分布信息与文档情感分类的相关性, 将情感词的语义权重特征融合到朴素贝叶斯分类中, 实现了新算法.在标准中文数据集上的实验结果表明, 提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

15.
正演模拟技术在地震解释中的应用   总被引:5,自引:0,他引:5  
对地质模型进行波场正演计算可以模拟地震波在地下介质中的传播规律,以明确地质体地震记录特征.在地震资料解释过程中,对地质模型的正演计算可以对解释结果进行验证,并能提供地下地质体地震波岩石物理响应特性,为地质学家正确研究地下地质环境提供地震波波场证据。本文介绍了利用交错网格差分思想求解波动方程的地震正演模拟方法,并在碳酸盐地层中层位判断和相对低速薄灰岩储层中的两个实际地质模型为例进行简要分析。  相似文献   

16.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号