首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
本文在提出规范、规范满等概念的基础上,对CC4神经网络分类计算的倾向性进行了理论分析.并针对文本分类,提出了基于神经网络的增量式索引建立方法,将以词频为基础表示的高维文本信息映射到低维数据空间.为了使CC4神经网络应用到基于文本信息空间索引的分类技术中,将空间索引变换为CC4神经网络可以接受的二值向量,使得CC4神经网络以空间索引为基础,进行文档分类.最后给出了相应的实验结果.  相似文献   

2.
梁鹏鹏  柴玉梅  王黎明 《计算机工程》2011,37(21):124-125,130
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表 明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。  相似文献   

3.
基于模糊角分类的神经网络用户兴趣模型分类算法   总被引:1,自引:0,他引:1  
王秀丽  罗方芳  宁正元 《计算机应用》2006,26(10):2437-2439
用户兴趣描述文件的快速分类是个性化搜索引擎的关键技术,提出了一种模糊角分类神经网络模型,该模型能接受用户兴趣描述文件的实向量输入,克服了角分类神经网络(CC4)对二进制输入的要求。模糊角分类神经网络模型根据用户信息所落入的k最近邻的样本泛化空间来进行分类,随着k值的增大,其分类效果趋近于贝叶斯分类算法。  相似文献   

4.
李劲  张华  吴浩雄  向军  辜希武 《计算机应用》2012,32(5):1335-1339
社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量。研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果。由于社会标注属于大众分类,标注的产生具有很大的随意性,标注的质量差别很大,因此首先利用文档间的语义相似度以及标注间的语义相似度来对标注的质量进行量化评估。在此基础上对标注进行质量过滤,利用质量相对较好的标注对文档向量空间模型进行扩展,将文档表示成由文档单词以及文档标注信息组成的扩展向量。同时采用支持向量机分类算法进行分类实验。实验结果表明,通过对标注进行质量评估并过滤质量差的标注,同时结合文档内容以及标注来对文档能提高分类的效果,同传统的基于文档内容的分类算法相比,分类结果的F1度量值提高了6.2%。  相似文献   

5.
基于Rough集潜在语义索引的Web文档分类   总被引:5,自引:0,他引:5  
Rough集(粗糙集)埋论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。  相似文献   

6.
基于深度信念网络的文本分类算法   总被引:2,自引:0,他引:2  
随着网络的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.目前已经有许多不同类型的神经网络应用于文本分类,并且取得良好的效果.但是,大部分模型仅采用文档的少量特征作为输入,没有考虑到足够的信息量;而当考虑到足够的特征时,又会发生维数灾难,导致模型难以训练或者训练时间大幅增加.利用深度信念网络从文本中抽取特征,并利用softmax回归分类器对抽取后的特征分类.深度信念网络不仅具有强大的学习能力,同时还能从高维的原始特征中抽取低维度高度可区分的低维特征,因此利用深度信念网络来对文本分类,不仅能够考虑到文档的足够的信息量,而且能够快速的训练.并且实验结果也表明利用深度信念网络实现文本分类的性能很好.  相似文献   

7.
在海量短文本中由于特征稀疏、数据维度高这一问题,传统的文本分类方法在分类速度和准确率上达不到理想的效果。针对这一问题提出了一种基于Topic N-Gram(TNG)特征扩展的多级模糊最小-最大神经网络(MLFM-MN)短文本分类算法。首先通过使用改进的TNG模型构建一个特征扩展库并对特征进行扩展,该扩展库不仅可以推断单词分布,还可以推断每个主题文本的短语分布;然后根据短文本中的原始特征,计算这些文本的主题倾向,根据主题倾向,从特征扩展库中选择适当的候选词和短语,并将这些候选词和短语放入原始文本中;最后运用MLFM-MN算法对这些扩展的原始文本对象进行分类,并使用精确率、召回率和F1分数来评估分类效果。实验结果表明,本文提出的新型分类算法能够显著提高文本的分类性能。  相似文献   

8.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器.  相似文献   

9.
角分类算法是一类快速分类算法,以其为学习算法的前向神经网络,在信息检索,特别是在线信息检索等领域有着重要的应用.通过对CC4学习算法的分析,揭示了泛化距离在角分类神经网络中的意义.针对文本数据的快速分类要求,提出了新的角分类网络TextCC.为解决数据的多类别判定问题,给出了新的角分类神经网络隐层与输出层之间连接矩阵的学习算法.实验表明,新的角分类神经网络隐层与输出层之间连接矩阵的学习算法有效,TextCC的分类精度教CC4的分类精度显著的提高.  相似文献   

10.
传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语义信息之间的互补性。本文提出融合声学特征和深度特征的神经网络语音文档分类,在神经网络训练中,首先采用训练好的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的声学特征和深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类。在语音新闻播报语料集上进行实验,本文提出的系统明显优于基于语音和文本融合的语音文档分类系统,最终的分类准确率达到97.27%。  相似文献   

11.
为提高文本分类的准确性,本文提出了一种基于量子PSO和RBF神经网络的新的文本分类方法.首先建立描述样本类别的关键词集合,并采用模糊向量空间模型建立每类样本的特征向量,然后采用RBF神经网络实施文本自动分类,采用改进的量子PSO优化RBF神经网络的参数,以提高其逼近能力.选取中国期刊网的部分文献作为实验数据,实验结果说明本文所提出方法的分类精准度与其他同类方法相比有明显的提高.  相似文献   

12.
角分类前向神经网络CC4可以快速对文本数据进行分类处理.本文在定义二值向量的诱导向量的基础上,给出CC4神经网络隐层、输出层的权矩阵构造方法的诱导向量分析,并给出CC4神经网络隐层输出的基本原理、基于泛化距离的隐层权矩阵构造方法的几何解释,以及输出层权矩阵构造的约束条件;揭示了角分类神经网络学习、工作的基本原理.本文为基于实向量输入的快速角分类神经网络的设计提供了借鉴及必要的理论基础.  相似文献   

13.
高光谱遥感数据以数据量大、含混度高、地面样本数据少的特点给分类处理带来了困难。将独立成分分析技术与多层前向神经网络相结合, 得到一种新的分类算法。独立成分分析在提取有效光谱特征的同时, 大大降低了数据的维数。神经网络作为分类器, 分类精度显著高于传统的bayes 分类器。通过对220 波段的高光谱数据进行实验, 得到了良好的效果。  相似文献   

14.
司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求。为此,提出一种融合深度学习与堆叠模型的多标签分类方法。该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验证得到所有数据的多标签分类概率值,将此概率值数据进行融合形成元数据;第二层使用自定义的深度神经网络作为混合器,以第一层的元数据为输入,通过训练多标签概率矩阵获取模型参数。该方法将强分类器关联在一起,获得比单个分类器更加强大的性能。实验结果表明,深度学习堆叠模型实现了87%左右的短文本分类F1分数,优于BERT、卷积神经网络、循环神经网络及其他单个模型的性能。  相似文献   

15.
In this paper a system for analysis and automatic indexing of imaged documents for high-volume applications is described. This system, named STRETCH (STorage and RETrieval by Content of imaged documents), is based on an Archiving and Retrieval Engine, which overcomes the bottleneck of document profiling bypassing some limitations of existing pre-defined indexing schemes. The engine exploits a structured document representation and can activate appropriate methods to characterise and automatically index heterogeneous documents with variable layout. The originality of STRETCH lies principally in the possibility for unskilled users to define the indexes relevant to the document domains of their interest by simply presenting visual examples and applying reliable automatic information extraction methods (document classification, flexible reading strategies) to index the documents automatically, thus creating archives as desired. STRETCH offers ease of use and application programming and the ability to dynamically adapt to new types of documents. The system has been tested in two applications in particular, one concerning passive invoices and the other bank documents. In these applications, several classes of documents are involved. The indexing strategy first automatically classifies the document, thus avoiding pre-sorting, then locates and reads the information pertaining to the specific document class. Experimental results are encouraging overall; in particular, document classification results fulfill the requirements of high-volume application. Integration into production lines is under execution. Received March 30, 2000 / Revised June 26, 2001  相似文献   

16.
针对信息挖掘中的网页自动分类问题,提出了一种基于向量空间模型和过程神经元网络的分类方法。网络由输入层、隐层和输出层组成。输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来。以因特网上旅游网页分类为例验证了该方法的有效性。  相似文献   

17.
This paper describes a new method for the classification of binary document images as textual or nontextual data blocks using neural network models. Binary document images are first segmented into blocks by the constrained run-length algorithm (CRLA). The component-labeling procedure is used to label the resulting blocks. The features for each block, calculated from the coordinates of its extremities, are then fed into the input layer of a neural network for classification. Four neural networks were considered, and they include back propagation (BP), radial basis functions (RBF), probabilistic neural network (PNN), and Kohonen's self-organizing feature maps (SOFMs). The performance and behavior of these neural network models are analyzed and compared in terms of training times, memory requirements, and classification accuracy. The experiments carried out on a variety of medical journals show the feasibility of using the neural network approach for textual block classification and indicate that in terms of both accuracy and training time RBF should be preferred.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号