首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于向量空模型的文本自动分类系统的研究与实现   总被引:151,自引:11,他引:140  
随着网络信息的迅猛发展,信息处理已经成为人工获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

2.
文本信息处理就是通过计算机对文本从表及里、由此及彼的分析处理,不仅仅抽取包含其中的信息,更需要分析推理蕴涵其中的意义。全面地分析探讨了文本信息处理研究现状,概述了文本信息处理的发展历史,将文本信息处理研究归纳为分词研究、文本信息抽取、文本分类、文本信息检索、文本自动摘要等方面,并分别对各领域的研究现状做了概述,指出了各研究领域中存在的问题。讨论了文本信息处理的关键技术问题及其挑战,指出了文本信息处理的远景目标就是文本信息的语义分析、归纳推理和文语转换。  相似文献   

3.
《软件》2016,(9):118-121
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型,特征提取,机器学习方法等进行了研究和探讨。最后,本文实现了一套基于自学习向量空间模型的文本分类系统,并基于kafka消息队列和storm流计算框架,实时地为文本进行分类。  相似文献   

4.
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.对文本分类关键技术中的特征选择算法进行了探讨,并结合网页特性,对特征权重算法及互信息算法进行了改进.实验结果证明,改进算法是可行的.  相似文献   

5.
文本分类综述   总被引:3,自引:0,他引:3  
靳小波 《自动化博览》2006,23(Z1):24-29
1文本分类的背景和意义上世纪九十年代以来,因特网以惊人的速度发展起来,它容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何从这些浩瀚的文本中发现有价值的信息是信息处理的一大目标。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。2文本分类的研究历…  相似文献   

6.
刘茂旺  林世平 《福建电脑》2006,(3):103-104,100
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下.根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别.本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重时迭代次数和判定阚值的选择进行研究。实验表明.该分类器对多类多标签的文本分类是有效的。  相似文献   

7.
基于Agent的文本分类系统   总被引:2,自引:0,他引:2  
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统。仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。  相似文献   

8.
文本信息处理是计算机处理信息的方法之一。本文分别介绍了在VB中利用字符函数处理文本信息和利用Word处理文本信息的方法和技巧。这些方法和技巧在开发VB信息处理应用系统中很有实用价值。  相似文献   

9.
文本信息处理是计算机处理信息的方法之一.本文分别介绍了在VB中利用字符函数处理文本信息和利用Word处理文本信息的方法和技巧.这些方法和技巧在开发VB信息处理应用系统中很有实用价值.  相似文献   

10.
随着信息技术的高速发展,信息处理已经成为目前最重要的研究内容,如何从大量的相关信息中获取我们需要的且相对准确的信息已经成为当前社会的一大难题。本文针对这一问题展开研究,通过对大量评语文本的分析,提出了一种基于本体的综合评价文本自动生成的方法,可以快速处理大量评语文本,从而自动获取相应的综合评价文本。  相似文献   

11.
针对海量文本内容中的敏感信息自动校对问题,提出了一种基于规则和SVM(支持向量机)相结合的敏感信息自动校对方法。以《新华社新闻信息报道中的禁用词和慎用词》和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,针对不同的类别,构建分类处理规则库,设计相应的规则自动处理算法,实现敏感信息的自动校对,同时应用SVM模型对规则处理结果进行情感分析,大大减少了误报。测试结果显示,该方法的召回率为89.98%,准确率为98.31%,每秒处理10万字以上的文本内容,解决了实际工程应用中的关键难点问题。  相似文献   

12.
中文文档自动分类系统的设计与实现   总被引:30,自引:4,他引:30  
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。  相似文献   

13.
Building a digital library of antique documents involves not only technical implementation issues, but also aspects related to the digitization of large collections of documents. Antique documents are usually delicate and need to be handled with care. Also, a poor state of preservation and the use of unrecognizable font types make automatic text recognition more difficult, hence requiring a further human revision to perform text corrections. This makes the participation of experts in the digitization process mandatory and, therefore, costly. In this paper, we present a framework for managing the workflow of the digitization of large collections of antique documents. We describe the digitization process, and a tool supporting all of its phases and tasks. We also present a case study in which we describe how the workflow management system was applied to the digitization of more than 10,000 documents from journals of the 19th century. In addition, we describe the resulting digital library, focusing on the most important technological issues.  相似文献   

14.
文本分割是信息检索的一个重要问题。文本分割是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界,其分割对象可以是书面的、语音的或者动态的文本。文本线性分割的主要目的是找出主题边界,它对于很多自然语言处理如自动文摘、问答系统等来说具有重要的价值。在大量文献的基础上,总结归纳文本线性分割中的主要方法,并提出未来的研究方向。  相似文献   

15.
In this paper we introduce an automatic system to perform authority control in digital libraries based on data mining techniques. This system is able to find the different representations for an author name as well as to distinguish between different authors sharing the same name. Using that information, the system shows the user the results of a search over a digital library properly grouped according to their authorship. To accomplish this task, it only uses information that can be directly obtained from the digital library itself without any kind of external data. The system has been tested using different digital libraries on the web.  相似文献   

16.
信息过滤中的中文自动分词技术研究   总被引:2,自引:0,他引:2  
文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。  相似文献   

17.
数字资源管理系统的设计与实施方案   总被引:1,自引:0,他引:1  
数字图书馆建设的关键是建设并合理的管理数字资源。本文提出一个图书馆的数字化资源管理的方案。该方案可以对文本、超文本、图像、动画、科学数据等多种形式的文档进行数字资源采集,进而进行规范性地加工、保存、管理采创建数字资源。最后提供在互联网上的发布与检索服务来进行数字资源传递。  相似文献   

18.
数字图书馆建设的关键是建设并合理的管理数字资源。本文提出一个图书馆的数字化资源管理的方案。该方案可以对文本、超文本、图像、动画、科学数据等多种形式的文档进行数字资源采集,进而进行规范性地加工、保存、管理来创建数字资源,最后提供在互联网上的发布与检索服务来进行数字资源传递。  相似文献   

19.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

20.
As a special type of table understanding, the detection and analysis of tables of contents (TOCs) play an important role in the digitization of multi-page documents. Most previous TOC analysis methods only concentrate on the TOC itself without taking into account the other pages in the same document. Besides, they often require manual coding or at least machine learning of document-specific models. This paper introduces a new method to detect and analyze TOCs based on content association. It fully leverages the text information throughout the whole multi-page document and can be directly applied to a wide range of documents without the need to build or learn the models for individual documents. In addition, the associations of general text and page numbers are combined to make the TOC analysis more accurate. Natural language processing and layout analysis are integrated to improve the TOC functional tagging. The applications of the proposed method in a large-scale digital library project are also discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号