共查询到20条相似文献,搜索用时 15 毫秒
1.
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性。在PU学习算法中,仅需标注部分正例样本就可以构造分类器。对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器。在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU 学习分类方法,并具有较高的入侵检测率。 相似文献
2.
基于一种混合语言模型的自动文本分类技术研究 总被引:1,自引:0,他引:1
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。 相似文献
3.
提出了一种面向机械领域的文本分类器.特征选择采用基于文档频率的特征提取法和灰色关联度计算相结合的方法,有效降低了特征维数,削弱了特征词之间的关联,为采用贝叶斯分类创造了条件.分类阶段引进了基于类别区分度的加权因子对朴素贝叶斯分类器进行优化.实验证明,该分类器能够有效地提高机械领域文本分类的召回率和正确率,具有较好的使用效果. 相似文献
4.
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量. 相似文献
5.
XML文档,作为新数据形式,将文本内容信息和结构信息综合起来,是目前进行研究的一个热点。支持向量机方法为了对分类器具体的构造问题进行解决,利用核函数做了空间映射,同时将分类的最优超平面构造出来,这一方法对于文本自动分类有着明显的优点。本文首先介绍了向量模型,其次,对基于支持向量机的XML文档自动分类进行阐述。 相似文献
6.
文本分类是根据文档内容将文档分类为预定义类别的过程.文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1].本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2]. 相似文献
7.
《电子科技文摘》2001,(2)
0103030数据仓库的集合刷新维护算法[刊]/李子木//计算机工程与科学.—2000,22(5).—81~83,87(D)0103031概念推理网及其在文本分类中的应用[刊]/李晓黎//计算机研究与发展.—2000,37(9).—1032~1038(K)0103032超文本协调分类器的性能研究[刊]/范焱//计算机研究与发展.—2000,37(9).—1026~1231(K)为了获得高效的超文本分类算法,提出了一种新的协调分类超文本算法,并将 k-NN,Bayes 和文档相似性引入了超文本分类领域,且对这3种分类器的超文本的分类效果进行了实验比较,最终得出一个高效的超文本分类器。目前,该方法已应用于新开发的两个实验系统:智能搜索引擎系统 WebSearch 和智能软件助理 WeKSoft。参15 相似文献
8.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高. 相似文献
9.
文本分类将自然语言文本按内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类;佳确性各不相同。在文本分类领域,SVM分类器是一种常用且效果较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间,是一种较好的分类算法。 相似文献
10.
11.
12.
13.
14.
15.
16.
文本分类,是一种对文档进行自动标记类别的技术。它是文本挖掘中的一个核心任务,也是近年来数据挖掘中的一个研究热点。在文章本分类中,所要处理的文档集中包含了很多特征,而分类算法中对于这些特征的处理和识别又需要进行大量的计算,目前尽管分类算法的准确率可以达到很高的水平,但分类算法的速度却因为受到硬件条件的限制而没有得到有效的提高,而网格计算可以弥补这一点缺陷。文章对传统的向量空间分类算法进行改进,并在Alchemi网格计算平台下测试,发现在网格环境下,文本分类的速度得到很大的提高。 相似文献
17.
兰志成 《信息技术与信息化》2022,(6):138-141
针对以往建筑安全事故报告分类研究中模型不能自动获取充足的深层语义特征的问题,提出了一种融合图神经网络(graph neural network,GNN)与长短期记忆网络(long short-term memory,LSTM)的新型文本分类方法。该方法首先基于GNN为每份事故报告构建一张图;接着,使用LSTM将图中节点信息相互传递并更新节点表示;随后,将词节点的表示通过注意力机制聚合为更为丰富的深层文档特征表示;最后,采用分类器实现建筑安全事故报告分类任务。应用于建筑安全事故文本数据集上的实验结果表明,所提方法性能优于同类基准系统。 相似文献
18.
基于类别分布差异和VPRS特征选择的文本分类方法 总被引:3,自引:0,他引:3
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。 相似文献
19.
在人脸识别研究问题中,传统的K-近邻分类器是仅基于一种测度进行分类的.但是,这种仅基于一种测度进行分类的方法没有充分考虑不同特征间的相似信息,因而往往分类不够准确.针对这个问题,本文提出了基于距离和角度两种测度联合分类的改进近邻分类器.即在距离测度的基础上融合cosine分类器的角度信息作为分类测度,同时在分类过程中运用模糊识别,以改善传统近邻分类器的分类效果.经计算机仿真数据实验,表明这种改进的近邻分类器与Gabor小波的结合,提高了人脸识别率. 相似文献
20.
随着互联网的快速发展,文本信息量巨大,大规模的文本处理已经成为一个挑战。文本处理的一个重要技术便是分类,基于SVM的传统文本分类算法已经无法满足快速的文本增长分类。于是如何利用过时的历史文本数据(源任务数据)进行迁移来帮助新产生文本数据进行分类显得异常重要。文章提出了基于半监督的SVM迁移学习算法(Semi-supervised TL_SVM)来对文本进行分类。首先,在半监督SVM的模型中引入迁移学习,构建分类模型。其次,采用交互迭代的方法对目标方程求解,最终得到面向目标领域的分类器。实验验证了基于半监督的SVM迁移学习分类器具有比传统分类器更高的精确度。 相似文献