首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
可分性判据在中文网页分类中的应用   总被引:3,自引:0,他引:3  
提出了一种改进的基于统计的中文网页的分类算法。通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法,贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。  相似文献   

2.
目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F 1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F 1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。  相似文献   

3.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

4.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

5.
一种改进的特征权重算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张瑜  张德贤 《计算机工程》2011,37(5):210-212
特征权重算法对文本分类系统的精确度有很大影响,传统的TFIDF算法未能考虑特征项在类间和类内的分布情况。为此,在对传统算法和相关改进算法进行分析的基础上,引入类间偏斜度、类内离散度和权重调整因子的改进思路,提出一种基于WA-DI-SI的特征权重改进算法,分别采用支持向量机和朴素贝叶斯2种分类算法进行测试。测试结果表明,与其他改进算法相比,该算法能够获得更好的分类效果。  相似文献   

6.
针对传统的循环神经网络模型在处理长期依赖问题时面临着梯度爆炸或者梯度消失的问题,且参数多训练模型时间长,提出一种基于双向GRU神经网络和贝叶斯分类器的文本分类方法。利用双向GRU神经网络提取文本特征,通过TF-IDF算法权重赋值,采用贝叶斯分类器判别分类,改进单向GRU对后文依赖性不足的缺点,减少参数,缩短模型的训练时间,提高文本分类效率。在两类文本数据上进行对比仿真实验,实验结果表明,该分类算法与传统的循环神经网络相比能够有效提高文本分类的效率和准确率。  相似文献   

7.
基于树桩网络的贝叶斯文本分类算法   总被引:2,自引:0,他引:2  
杨延娇  王治和 《计算机工程》2009,35(16):201-202
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。  相似文献   

8.
基于改进贝叶斯的书目自动分类算法   总被引:1,自引:0,他引:1  
贝叶斯算法被广泛应用于书目自动分类领域。该算法常使用差分进化算法来评估概率项,但是传统的差分进化算法容易陷入局部最优解,使得贝叶斯分类精度较低。针对该问题,提出了基于改进贝叶斯的书目自动分类方法。该方法通过多父突变和交叉操作估计概率项的最优解,提高贝叶斯分类精度;在进行书目自动分类时,先采用ICTCLAS系统进行文本预处理,再提取文本的词频-逆向文件频率特征,接着采用改进的贝叶斯估计方法对特征进行训练与分类,最终实现书目的自动分类。仿真结果表明,该方法具有较高的分类准确率。  相似文献   

9.
覆盖算法在文本分类中的应用   总被引:1,自引:0,他引:1  
介绍了文本分类的基本过程以及朴素贝叶斯和K近邻算法等基本分类方法,给出了基于覆盖的构造性神经粤络分类算法,并将其与朴素贝叶斯和KNN作了实验比较。结果表明,该算法具有较好的分类性能,适合于处理大规模的文本分类任务,从而有效地克服了传统文本分类算法的不足。  相似文献   

10.
为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。采用卡方值和文档频数相结合的数值来表示特征词的重要程度,对该值进行处理获得每个特征词权重,建立加权贝叶斯分类器。在研究维文特点的基础上,利用该算法构建了一个维文文本分类模型。在搜集到的维文语料库上进行的实验结果表明,该算法比朴素贝叶斯拥有更好的分类性能。  相似文献   

11.
由于微博等网络文本所含的上下文信息有限,网络文本情感分析更具有挑战性。针对网络文本情感分析,提出了一种基于全卷积—多池化单元的卷积神经网络模型,实现情感多分类标注。无需手动指定多种上下文窗口大小和尽量保留文本的多层次语义,模型通过堆叠多级全卷积—多池化单元,提取出文本特征向量。该文本特征向量包含多个抽象级别、多种上下文窗口大小和不同层次语义的文本特征。模型最后基于此向量计算情感多分类标注。实验表明:模型的网络文本情感多分类标注正确率达到56.3%,与同类模型比较,提高了情感多分类标注的正确率。  相似文献   

12.
There is a growing interest in efficient models of text mining and an emergent need for new data structures that address word relationships. Detailed knowledge about the taxonomic environment of keywords that are used in text documents can provide valuable insight into the nature of the subject matter contained therein. Such insight may be used to enhance the data structures used in the text data mining task as relationships become usefully apparent. A popular scalable technique used to infer these relationships, while reducing dimensionality, has been Latent Semantic Analysis. We present a new approach, which uses an ontology of lexical abstractions to create abstraction profiles of documents and uses these profiles to perform text organization based on a process that we call frequent abstraction analysis. We introduce TATOO, the Text Abstraction TOOlkit, which is a full implementation of this new approach. We present our data model via an example of how taxonomically derived abstractions can be used to supplement semantic data structures for the text classification task.  相似文献   

13.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN结构、基于RNN结构和基于Transfomer结构的多标签文本分类方法。对多标签文本分类常用的数据集进行了梳理总结。对未来的发展趋势进行了分析与展望。  相似文献   

14.
多个对象同时讨论时,对文本的情感分析结果与针对特定对象的情感倾向可能不一致,对象级情感分类任务需在文本整体语义的场景下,重点关注与给定对象相关的内容.文中提出融合词性和注意力的卷积神经网络对象级情感分类方法.引入词性信息,通过长短时记忆神经网络建模输入序列,构建对象注意力,将注意力融入到卷积神经网络结构中分析关于给定对象的情感倾向.词性信息有助于捕获与对象具有修饰关系的内容和弱化内容或距离相近但无搭配关系的句子成分的影响.结合长短时记忆神经网络和卷积神经网络结构建模文本,更有利于同时建模文本整体语义与对象相关语义.在SemEval2014数据集上的实验表明,文中方法取得优于基于长短时记忆神经网络的注意力机制方法的分类效果.  相似文献   

15.
中文文本中抽取特征信息的区域与技术   总被引:30,自引:3,他引:30  
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言,本文的方法与结论都有一定的参考价值。  相似文献   

16.
基于统计方法的汉语自动文摘系统研究   总被引:11,自引:0,他引:11  
本文简要介绍了文本的向量空间模型表示,并提出了用该模型进行非受限真实文本的自动文摘方法。其基本思想是对输入文本进行项(本文为词和概念)的统计,根据不同项在文本中的分布评估其重要性,据此和其它信息形成句子的综合权重,生成摘要。文中较详细地介绍了系统的实现及实验结果,同时提出了对文摘系统的评价方法。  相似文献   

17.
针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经网络提取文本特征,并引入卷积神经网络进行特征优化,获得各语种更深层次的文本表示,最后将各语种的文本表示级联输入到softmax函数预测类别。在中英朝科技文献平行数据集上进行了实验验证,实验结果表明,该方法相比于基准方法分类正确率提高了4%,且对任一语种文本均能正确分类,具有良好的扩展性。  相似文献   

18.
古印章文本因图像退化与超多分类等特点导致识别难度大,部分字符的标注数据不足造成基于深度学习的模型识别准确率不高,泛化能力差.针对上述问题,提出基于深度残差网络(ResNet)和迁移学习的古印章文本识别方法.使用深度残差网络作为特征提取网络,利用人工合成字符样本作为源域进行预训练.将自建古印章文本识别数据集作为目标域,引...  相似文献   

19.
为满足大规模文本快速分类的需求,在传统文本分类方案基础上,利用GPU强大的并行吞吐量,提出了一种大规模并行文本分类方案。为验证该方案的有效性,在多个平台上进行充分的实验分析。结果表明,该方案比传统的分类方案具有10倍以上的加速比。  相似文献   

20.
Abstract

Intelligent tutoring media can take advantage of hypertext systems and expert systems. Hypertext is text plus an abstraction of the text. In reasoning with this abstraction, a hypertext system manifests expertise. This intelligent hypertext is called expertext. When the abstraction of the text is a semantic network, spreading activation and inheritance methods may help people appreciate the structure of the hypertext. When predicates and implications are included in the abstraction, logical deductions can be performed. Queries can be logically answered and then a sequence of relevant text blocks can be provided as an explanation of the answer. Distributed expertext systems use knowledge bases about the domain of the text and about the users. Distributed expertext systems have been developed which guide people in searching for information and in creating information.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号