首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
文档自动分类技术及其实现   总被引:9,自引:0,他引:9  
文档自动分类是信息处理领域中的一项重要研究课题,也是一项重要的应用技术。本文介绍了实现文档自动分类中的几项关键技术,并给出了实现文档自动分类的一般方法。  相似文献   

2.
Oracle Text是一种创建文本搜索和文档分类应用的技术。本文提出了一种基于该技术实现中文网页自动分类系统的解决方案。实验结果表明该方案准确有效,具有较好的性能,满足中文网页自动分类的需求。  相似文献   

3.
基于本体的文档自动分类系统的研究   总被引:4,自引:0,他引:4  
讨论了基于本体的文档自动分类系统的意义,给出了系统的框架。利用现有的文档自动分类技术,结合领域本体的分类词汇为文档建立索引。研究人工分类、机器学习分类的结合方法,提出基于“分类一使用一调整”逐步求精的分类方法。结合企业知识管理需求,开发了原型系统,进行了初步验证。  相似文献   

4.
介绍当前自动分类和自动摘要技术中常用的算法,并将自动分类、自动摘要技术应用到应急指挥系统的预案管理中.通过对应急预案文档标题中提取的特征词,确定预案文档的分类,同时有机结合应急预案文档中的六种不同的特征词,赋予句子不同的拯值,然后根据句子权重从高到低挑出一定量的句子,并进行平滑处理,生成文字流畅且具备一定质量的摘要.  相似文献   

5.
基于Agent的文本分类系统   总被引:2,自引:0,他引:2  
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统。仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。  相似文献   

6.
杨为民  李龙澍 《微机发展》2007,17(2):135-137
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。  相似文献   

7.
基于N-gram信息的中文文档分类研究   总被引:12,自引:3,他引:9  
传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。  相似文献   

8.
基于相邻字对信息的中文文档分类研究   总被引:2,自引:0,他引:2  
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。  相似文献   

9.
中文WEB文档自动分类是中文自动信息检索的核心技术之一.中文WEB文档的分类涉及到文档的自动抓取、信息加工和提取、自动分类等,本文实现一个开放式的中文WEB文档自动分类系统,并在系统模块中应用了几个改进算法,主要解决目前信息检索中涉及中文分词搜索时所遇到的一些问题.  相似文献   

10.
随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的测览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到“层次化”的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory-Returned Algorithm for Hierarchical aassification)。该方法着眼于屡次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length-of-Error-Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。  相似文献   

11.
基于非线性流形学习和支持向量机的文本分类算法   总被引:2,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

12.
研究了文本挖掘精确度问题。针对传统的聚类文本分类算法在文本分类中存在高维性和稀疏性,特别是同义词和近义词难以进行分类,使得分类的精确度低等问题,提出了一种聚类平均信息量文本分类算法。算法从信息论观点分析文本空间向量,将文本看做一个信息源,通过求得该信息源的各个特征的次数来积累文本信息量,以领域特征明显的词和短语作为聚类对象,然后采用层次平均信息量进行特征提取。仿真实验结果表明,提出的算法能够有效地提取文本信息,提高了文本分类的精度,具有一定的实际应用价值。  相似文献   

13.
Text summarization and classification are core techniques to analyze a huge amount of text data in the big data environment. Moreover, as the need to read texts on smart phones, tablets and television as well as personal computers continues to grow, text summarization and classification techniques become more important and both of them do essential processes for text analysis in many applications.Traditional text summarization and classification techniques have individually been considered as different research fields in this literature. However, we find out that they can help each other as text summarization makes use of category information from text classification and text classification does summary information from text summarization. Therefore, we propose an effective integrated learning framework using both of summary and category information in this paper. In this framework, the feature-weighting method for text summarization utilizes a language model to combine feature distributions in each category and text, and one for text classification does the sentence importance scores estimated from the text summarization.In the experiments, the performances of the integrated framework are better than ones of individual text summarization and classification. In addition, the framework has some advantages of easy implementation and language independence because it is based on only simple statistical approaches and POS tagger.  相似文献   

14.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

15.
中文文本的关键词自动抽取和模糊分类   总被引:41,自引:3,他引:38  
本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离,一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊分类方法结合,可望达到文本信息的自动分类。所提出的方法同样适合于模式识别之类问题的解决。  相似文献   

16.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。  相似文献   

17.
随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要。文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类。基于深度学习的文本分类,在对文本数据处理中,表现出较好的分类效果。本文对用于文本分类的深度学习算法进行详细阐述,按照深度学习的不同算法进行分类,并分析各种算法的特点,最后对深度学习算法在文本分类领域的未来研究方向进行总结。  相似文献   

18.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型.提出一个新的评价函数,即互信息差值.特其用于改进的贝叶斯文本分类模型"树桩网络".结果表明,在大多数数据集上该方法具有良好的分类效果.  相似文献   

19.
饶文碧  柯慧燕 《微机发展》2006,16(3):116-118
随着Internet的飞速发展,Web文本分类研究已经得到了人们密切的关注,并取得了大量的研究成果。文中讨论了Web文本分类过程中的几个关键技术;针对传统的Web文本分类方法缺乏认知自主性和不能再学习的特点,提出了一种扩展的Web文本分类模型和算法。通过系列实验表明,该算法具有较高的分类精度和查准率。  相似文献   

20.
自动文本分类中的智能处理技术   总被引:5,自引:1,他引:5  
Text automatic classification has become an important technology along with development of Internet and the increment of information ,because of the complexity of text ,it is very difficult to achieve better effect only depend-ing on the different classification methods,it need to use multi-ways to resolve. Based on the retrospection of text classification,this paper gives a comprehensive ways to enhance the performance of text classification ,which will pro-vide good instruction to the application nf text classification.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号