首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 297 毫秒
1.
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向.文本挖掘和信息检索的重要基础是自动化文本分类技术,朴素贝叶斯分类器是机器学习在文本自动化分类领域重要的一种分类器.朴素贝叶斯分类快速而精确,只需扫描一次数据集,具有较强的抗干扰能力.介绍了自动化文本分类的相关背景,论述了自动化文本分类技术的一般流程,设计和实现了一个基于朴素贝叶斯的自动化中文文本分类器,并通过两个实验对分类器进行了测试与验证.实验结果表明,该分类器具有良好的分类效果和分类速度.  相似文献   

2.
文本分类技术研究*   总被引:22,自引:2,他引:20  
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K-近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。  相似文献   

3.
大数据时代,随着社交媒体的不断普及,在网络以及生活中,各类文本数据日益增长,采用文本分类技术对文本数据进行分析和管理具有重要的意义。文本分类是自然语言处理领域中的一个基础研究内容,在给定标准下,根据内容对文本进行分类,文本分类的场景应用十分广泛,如情感分析、话题分类和关系分类等。深度学习是机器学习中一种基于对数据进行表征学习的方法,在文本数据处理中表现出了较好的分类效果。中文文本与英文文本在形、音、象上都有着区别,着眼于中文文本分类的特别之处,对用于中文文本分类的深度学习方法进行分析与阐述,最终梳理出常用于中文文本分类的数据集。  相似文献   

4.
中文文本的关键词自动抽取和模糊分类   总被引:41,自引:3,他引:38  
本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离,一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊分类方法结合,可望达到文本信息的自动分类。所提出的方法同样适合于模式识别之类问题的解决。  相似文献   

5.
比较研究了中文文本分类中四种不同的特征选择统计方法对k近邻分类器分类性能的影响。这四种特征选择采用的统计方法是:卡方、信息增益、互信息、交叉熵。相应地得到四种不同的特征集合。据不同的特征集合,分别进行了基于特征词布尔值和基于特征词的词频的中文文本分类实验,提出了文本分类系统流程,并给出了评估方法和实验结果。  相似文献   

6.
本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了特征选择和大量预处理过程。我们系统地研究了模型中的关键因素以及它们对分类结果的影响,并详细介绍了评价方法。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。  相似文献   

7.
用于文本分类和文本聚类的特征抽取方法的研究   总被引:2,自引:0,他引:2  
文本信息处理已成为一门日趋成熟、应用面日趋广泛的学科.文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题.面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率.本文针对文本信息处理中最重要的研究方向--文本分类和聚类技术展开了研究,分析了特征抽取法在文本分类和文本聚类中应用的重要性,以及论证了为何要对文本进行特征抽取,最后分别阐述了用于文本分类和文本聚类的特征抽取方法.  相似文献   

8.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

9.
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能.  相似文献   

10.
中文文本分类中的特征选择研究   总被引:14,自引:0,他引:14  
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好.考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,χ2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高.  相似文献   

11.
中文文本分类是中文信息检索和Web挖掘等领域的研究热点.现有的一些分类方法在特征选择阶段存在不足,忽略了隐含的子类信息.本文提出了一种提升隐含子类的关键词权值的方法,从而可以发现有价值的子类信息,进而使用粗糙集构建分类器.实验结果表明这种方法在不增加待约简词汇数量的情况下有效地提高了文本分类的查全率.  相似文献   

12.
文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。  相似文献   

13.
为深层挖掘电力数据文本蕴藏的信息,本文基于自然语言处理技术分析了电力文本挖掘与分类流程,通过分词技术分析文本内容,提取文本特征,并构建分类器模型以自动分类文本,最后以实例分析了电力文本挖掘与分类的实际效果.结果表明,中文电力数据文本挖掘准确度较高,适用范围广泛,方式方法灵活,可及时准确挖掘隐藏的关键信息,为分析客户用电诉求与投诉要求提供了完善的数据依据;以文本自动分类分析,构建的分类器模型查准率与准确率相对较高,且调优之后分类器模型可更加准确地识别出热点事件投诉工单.  相似文献   

14.
针对Web文本分类的低效率问题,利用Web文本URL的特性,提出了一种混合URL及文本语义进行高速Web文本流的快速近似分类方法.首先通过学习训练样本和专家指定等方式得到使用URL和不使用URL进行分类的两个集合:肯定集合和否定集合.在分类过程中,得到Web文本的URL,从中提取和剥离出URL的关键特性对其进行建模,而后使用根据模型所属集合选择分类算法进行分类.定时对两个集合进行回归测试,根据误差及时更新两个集合以保证分类精度.实验表明,与传统文本分类方法、混合Link-Based和Content-Based的方法及纯URL-Based方法相比,该方法在不影响精度的前提下,可大幅度提高分类的性能.  相似文献   

15.
文本自动分类系统文本预处理方法的研究   总被引:3,自引:0,他引:3  
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。  相似文献   

16.
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

17.
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。  相似文献   

18.
提出了一个基于病毒思想的英文文本数字水印算法,该算法基本思想是把整个英文文本的字符以某些字母为界划分成若干小段(元素),再把这些元素按规则归类成若干个集合,然后在每一个集合中分别嵌入一个水印信息片。检测水印的时候,只要这个集合的某个元素中的水印信息没被破坏,那么这个集合嵌入的水印信息片就可以被提取出来。由于该算法完全可以在纯TXT文本上做,所以格式攻击对其是无效的。实验证明:该算法的鲁棒性能达到理论上的预期效果。  相似文献   

19.
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。  相似文献   

20.
人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增益算法选择特征项,使用特征项频率-倒排文档频率计算特征项权值;最后使用进化神经网络对中文文本进行自动分类。实验结果表明,与原BP神经网络相比,进化BP神经网络的分类效果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号