首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性。在PU学习算法中,仅需标注部分正例样本就可以构造分类器。对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器。在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU 学习分类方法,并具有较高的入侵检测率。  相似文献   

2.
基于一种混合语言模型的自动文本分类技术研究   总被引:1,自引:0,他引:1  
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。  相似文献   

3.
提出了一种面向机械领域的文本分类器.特征选择采用基于文档频率的特征提取法和灰色关联度计算相结合的方法,有效降低了特征维数,削弱了特征词之间的关联,为采用贝叶斯分类创造了条件.分类阶段引进了基于类别区分度的加权因子对朴素贝叶斯分类器进行优化.实验证明,该分类器能够有效地提高机械领域文本分类的召回率和正确率,具有较好的使用效果.  相似文献   

4.
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量.  相似文献   

5.
于北瑜 《电子世界》2014,(12):315-316
XML文档,作为新数据形式,将文本内容信息和结构信息综合起来,是目前进行研究的一个热点。支持向量机方法为了对分类器具体的构造问题进行解决,利用核函数做了空间映射,同时将分类的最优超平面构造出来,这一方法对于文本自动分类有着明显的优点。本文首先介绍了向量模型,其次,对基于支持向量机的XML文档自动分类进行阐述。  相似文献   

6.
文本分类是根据文档内容将文档分类为预定义类别的过程.文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1].本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2].  相似文献   

7.
0103030数据仓库的集合刷新维护算法[刊]/李子木//计算机工程与科学.—2000,22(5).—81~83,87(D)0103031概念推理网及其在文本分类中的应用[刊]/李晓黎//计算机研究与发展.—2000,37(9).—1032~1038(K)0103032超文本协调分类器的性能研究[刊]/范焱//计算机研究与发展.—2000,37(9).—1026~1231(K)为了获得高效的超文本分类算法,提出了一种新的协调分类超文本算法,并将 k-NN,Bayes 和文档相似性引入了超文本分类领域,且对这3种分类器的超文本的分类效果进行了实验比较,最终得出一个高效的超文本分类器。目前,该方法已应用于新开发的两个实验系统:智能搜索引擎系统 WebSearch 和智能软件助理 WeKSoft。参15  相似文献   

8.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

9.
文本分类将自然语言文本按内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类;佳确性各不相同。在文本分类领域,SVM分类器是一种常用且效果较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间,是一种较好的分类算法。  相似文献   

10.
层次化中文文档分类   总被引:5,自引:0,他引:5  
对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。  相似文献   

11.
电子邮件分类有利于垃圾邮件的过滤,节省网络资源。为了提高邮件分类的精度,提出了改进支持向量机的电子邮件分类器模型。首先提取电子邮件的原始特征,并采用主成分分析法对特征进行选择,减少特征数量,提高邮件分类效率;然后采用支持向量机建立电子邮件分类器,并对传统支持向量机参数选择方法进行改进,改善邮件分类效果,最后采用邮件分类的标准数据库——UCI进行性能分析。结果表明,改进支持向量机解决了当前电子邮件分类模型的不足,获得了理想的电子邮件分类效果,分类结果可以帮助管理人员拦截垃圾邮件。  相似文献   

12.
《现代电子技术》2019,(24):140-145
为了进一步提高基于深度神经网络短文本分类性能,提出将集成学习方法应用于5种不同的神经网络文本分类器,即卷积神经网络、双向长短时记忆网络、卷积循环神经网络、循环卷积神经网络、分层注意力机制神经网络,分别对两种集成学习方法(Bagging,Stacking)进行了测试。实验结果表明:将多个神经网络短文本分类器进行集成的分类性能要优于单一文本分类模型;进一步两两集成的实验验证了单个模型对短文本分类性能的贡献率。  相似文献   

13.
一个算法的二元分类器构建通常包含两个集合样例,其中一组为正例样本,另一组为负例样本。实际上,我们使用的很多生物数据库,如磷酸激酶抑制剂数据库并非标准数据,磷酸激酶抑制剂数据库只含有不完整的正例样本和未标注样本数据集。这些未标注样本中,既包含正例样本也有负例样本。文章旨在解决的问题是对于非标准数据构建标准二元分类器从而实现未知磷酸激酶抑制剂筛选。通过未标注样本概率输出,对未知磷酸激酶抑制剂进行预测。文章对该PU学习算法进行性能估计,结果显示该算法具有较高的预测性能。  相似文献   

14.
王丁  运海红  张辉 《信息技术》2005,29(3):64-65
利用贝叶斯算法,通过对训练文本的学习,构建了一个文本分类器,从而实现了本文提出的自动分类的目标。贝叶斯分类算法是现在比较流行的方法,它的分类效果比较好,简单而且高效,可以通过大规模的训练语料提高分类的质量。文本的分类是选择最有可能生成该文本的类。只有建立了知识库,分类进行训练,才可以构造相应的分类器,对相关的文本进行分类。  相似文献   

15.
SAR目标分类识别是现代战场侦察的重要组成部分,SAR目标分类问题是目标识别的关键步骤之一,对目标识别等很多后续的应用有较大的影响,因此研究SAR图像目标分类技术具有非常重要的意义。针对这一研究热点,结合MSE匹配方法和超分辨Burg算法,提出一种两步分类器,采用该两步分类器对实测SAR图像进行了目标分类识别实验,取得较好的识别效果。  相似文献   

16.
文本分类,是一种对文档进行自动标记类别的技术。它是文本挖掘中的一个核心任务,也是近年来数据挖掘中的一个研究热点。在文章本分类中,所要处理的文档集中包含了很多特征,而分类算法中对于这些特征的处理和识别又需要进行大量的计算,目前尽管分类算法的准确率可以达到很高的水平,但分类算法的速度却因为受到硬件条件的限制而没有得到有效的提高,而网格计算可以弥补这一点缺陷。文章对传统的向量空间分类算法进行改进,并在Alchemi网格计算平台下测试,发现在网格环境下,文本分类的速度得到很大的提高。  相似文献   

17.
针对以往建筑安全事故报告分类研究中模型不能自动获取充足的深层语义特征的问题,提出了一种融合图神经网络(graph neural network,GNN)与长短期记忆网络(long short-term memory,LSTM)的新型文本分类方法。该方法首先基于GNN为每份事故报告构建一张图;接着,使用LSTM将图中节点信息相互传递并更新节点表示;随后,将词节点的表示通过注意力机制聚合为更为丰富的深层文档特征表示;最后,采用分类器实现建筑安全事故报告分类任务。应用于建筑安全事故文本数据集上的实验结果表明,所提方法性能优于同类基准系统。  相似文献   

18.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

19.
在人脸识别研究问题中,传统的K-近邻分类器是仅基于一种测度进行分类的.但是,这种仅基于一种测度进行分类的方法没有充分考虑不同特征间的相似信息,因而往往分类不够准确.针对这个问题,本文提出了基于距离和角度两种测度联合分类的改进近邻分类器.即在距离测度的基础上融合cosine分类器的角度信息作为分类测度,同时在分类过程中运用模糊识别,以改善传统近邻分类器的分类效果.经计算机仿真数据实验,表明这种改进的近邻分类器与Gabor小波的结合,提高了人脸识别率.  相似文献   

20.
随着互联网的快速发展,文本信息量巨大,大规模的文本处理已经成为一个挑战。文本处理的一个重要技术便是分类,基于SVM的传统文本分类算法已经无法满足快速的文本增长分类。于是如何利用过时的历史文本数据(源任务数据)进行迁移来帮助新产生文本数据进行分类显得异常重要。文章提出了基于半监督的SVM迁移学习算法(Semi-supervised TL_SVM)来对文本进行分类。首先,在半监督SVM的模型中引入迁移学习,构建分类模型。其次,采用交互迭代的方法对目标方程求解,最终得到面向目标领域的分类器。实验验证了基于半监督的SVM迁移学习分类器具有比传统分类器更高的精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号