首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
垃圾邮件的泛滥提出了极为迫切的技术诉求。文章介绍了基于文本分类技术的垃圾邮件过滤系统模型,并首先介绍了整个系统工作流程,然后阐述了系统中文本分词、文本特征提取、Winnow线性分类器等关键环节。  相似文献   

2.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍。将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。  相似文献   

3.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。  相似文献   

4.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。  相似文献   

5.
如何高效地文本分类是当前研究的一个热点。首先对文本分类概念及流程中的分词、特征提取和文本分类方法等相关技术及研究现状进行了介绍和阐述,然后分析了现有文本分类相关技术面临的挑战,最后对文本分类的发展趋势进行了总结。  相似文献   

6.
文本分类技术研究*   总被引:22,自引:2,他引:20  
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K-近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。  相似文献   

7.
介绍文本分类的研究背景、关键技术;总结经典文本分类方法;讨论目前新涌现的分本分类模型及面临的问题,并对文本分类趋势进行展望。  相似文献   

8.
基于机器学习的文本分类技术的研究   总被引:1,自引:0,他引:1  
基于机器学习的文本分类是近年来信息检索领域的热门研究技术,并且取得了较大进展.本文对文本分类的定义、文本表示进行了详细的阐述,介绍了SVM等一系列机器学习的文本分类方法和文本分类效果评估手段,指出了进一步的研究方向.  相似文献   

9.
本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细介绍,将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文本进行分词,然后再进行文本的分类。  相似文献   

10.
文本中特征词提取、特征词权重的计算是文本分类中基本而又重要的问题,文章介绍了一种用于文本分类的特征词权重调整算法,给出了一个新词区分能力表示的方法,并对相关问题进行了讨论。  相似文献   

11.
现有可解释性文档分类常忽略对文本信息的深度挖掘,未考虑单词与单词上下文、句子与句子上下文之间的语义关系.为此,文中提出基于生成式-判别式混合模型的可解释性文档分类方法,在文档编码器中引入分层注意力机制,获得富含上下文语义信息的文档表示,生成精确的分类结果及解释性信息,解决现有模型对文本信息挖掘不够充分的问题.在PCMag、Skytrax评论数据集上的实验表明,文中方法在文档分类上性能较优,生成较准确的解释性信息,提升方法的整体性能.  相似文献   

12.
自动文本分类中的智能处理技术   总被引:5,自引:1,他引:5  
Text automatic classification has become an important technology along with development of Internet and the increment of information ,because of the complexity of text ,it is very difficult to achieve better effect only depend-ing on the different classification methods,it need to use multi-ways to resolve. Based on the retrospection of text classification,this paper gives a comprehensive ways to enhance the performance of text classification ,which will pro-vide good instruction to the application nf text classification.  相似文献   

13.
多个对象同时讨论时,对文本的情感分析结果与针对特定对象的情感倾向可能不一致,对象级情感分类任务需在文本整体语义的场景下,重点关注与给定对象相关的内容.文中提出融合词性和注意力的卷积神经网络对象级情感分类方法.引入词性信息,通过长短时记忆神经网络建模输入序列,构建对象注意力,将注意力融入到卷积神经网络结构中分析关于给定对象的情感倾向.词性信息有助于捕获与对象具有修饰关系的内容和弱化内容或距离相近但无搭配关系的句子成分的影响.结合长短时记忆神经网络和卷积神经网络结构建模文本,更有利于同时建模文本整体语义与对象相关语义.在SemEval2014数据集上的实验表明,文中方法取得优于基于长短时记忆神经网络的注意力机制方法的分类效果.  相似文献   

14.
以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。  相似文献   

15.
在数据集不包含标签文本信息时,现有的显式交互分类模型无法显式计算文本单词和标签之间的语义关系.针对此问题,文中提出标签指导的双注意力深度神经网络模型.首先,提出基于逆标签频次的自动类别标签描述生成方法,为每个标签生成特定的标签描述,用于显式计算文本单词与标签之间的语义关系.在此基础上,使用文本编码器学习具有上下文语境信息的评论文本表示,并提出标签指导的双注意力网络,分别学习基于自注意力的文本表示和基于标签注意力的文本表示.然后,使用自适应门控机制融合这两个文本表示,得到文本最终表示.最后,使用两层前馈神经网络作为分类器,进行情感分类.在3个公开的真实数据集上的实验表明,文中模型分类效果较优,可减少计算代价和训练时长.  相似文献   

16.
在文本分类构件设计和实现过程中,贯彻面向对象的思想,主要使用设计模式,实现构件内部的高内聚、低耦合。在构件描述方面,使用XML这一直观的手段对构件各方面的信息进行描述,在对构件文本分类功能的测试中取得较好的效果。  相似文献   

17.
Web文本分类及其阻塞减少策略   总被引:1,自引:0,他引:1  
Web挖掘中,根据内容对Web文档进行分类是至关重要的一步.在Web文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别.然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞).针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善Web文档分类中文档被错误阻塞的情况.  相似文献   

18.
细粒度的情感分类任务需要识别文本当中与评论对象相关度最高的观点词并进行情感极性分类.文中利用多头注意力机制改进记忆网络,提取不同对象情感分类特征,实现对象级情感分类.将文本的词嵌入向量存储在记忆组件中,使用多头注意力机制在多个特征空间同时建模文本整体语义与对象相关语义.利用前馈网络层整合多个特征空间下的信息作为分类特征.在SemEval-2014数据集及扩充的数据集上实验表明,文中方法有利于缓解方法的选择性偏好.  相似文献   

19.
研究哈萨克语自动文本分类,并实现哈萨克语文本自动分类系统.系统首先对测试语料进行特征提取,而后生成训练模型.其次,对训练语料进行特征提取生成SVM向量.最后,给出测试文本的分类结果.同时对哈萨克语单词切分和未切分进行分类对比,得出未切分单词可以得出更好的分类效果.  相似文献   

20.
中文文本的关键词自动抽取和模糊分类   总被引:41,自引:3,他引:38  
本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离,一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊分类方法结合,可望达到文本信息的自动分类。所提出的方法同样适合于模式识别之类问题的解决。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号