共查询到20条相似文献,搜索用时 156 毫秒
1.
2.
3.
4.
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向.对文本分类关键技术中的特征选择算法进行了探讨,并结合网页特性,对特征权重算法及互信息算法进行了改进.实验结果证明,改进算法是可行的. 相似文献
5.
6.
随着因特网的迅猛发展,如何快捷、准确地识别和获取有用信息显得越来越重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下.根据文本的内容自动判别文本类别的过程。由于一个文本可能属于多个不同的类别.本文应用BOOSTING算法设计实现了一种多类多标签文本分类方法,并着重时迭代次数和判定阚值的选择进行研究。实验表明.该分类器对多类多标签的文本分类是有效的。 相似文献
7.
基于Agent的文本分类系统 总被引:2,自引:0,他引:2
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统。仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。 相似文献
8.
蒋铁海 《数字社区&智能家居》2005,(30)
文本信息处理是计算机处理信息的方法之一。本文分别介绍了在VB中利用字符函数处理文本信息和利用Word处理文本信息的方法和技巧。这些方法和技巧在开发VB信息处理应用系统中很有实用价值。 相似文献
9.
蒋铁海 《数字社区&智能家居》2005,(10):26-28
文本信息处理是计算机处理信息的方法之一.本文分别介绍了在VB中利用字符函数处理文本信息和利用Word处理文本信息的方法和技巧.这些方法和技巧在开发VB信息处理应用系统中很有实用价值. 相似文献
10.
随着信息技术的高速发展,信息处理已经成为目前最重要的研究内容,如何从大量的相关信息中获取我们需要的且相对准确的信息已经成为当前社会的一大难题。本文针对这一问题展开研究,通过对大量评语文本的分析,提出了一种基于本体的综合评价文本自动生成的方法,可以快速处理大量评语文本,从而自动获取相应的综合评价文本。 相似文献
11.
针对海量文本内容中的敏感信息自动校对问题,提出了一种基于规则和SVM(支持向量机)相结合的敏感信息自动校对方法。以《新华社新闻信息报道中的禁用词和慎用词》和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,针对不同的类别,构建分类处理规则库,设计相应的规则自动处理算法,实现敏感信息的自动校对,同时应用SVM模型对规则处理结果进行情感分析,大大减少了误报。测试结果显示,该方法的召回率为89.98%,准确率为98.31%,每秒处理10万字以上的文本内容,解决了实际工程应用中的关键难点问题。 相似文献
12.
中文文档自动分类系统的设计与实现 总被引:30,自引:4,他引:30
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。 相似文献
13.
Ángeles S. Places Antonio Fariña Miguel R. Luaces Óscar Pedreira Diego Seco 《Multimedia Tools and Applications》2016,75(7):3843-3877
Building a digital library of antique documents involves not only technical implementation issues, but also aspects related to the digitization of large collections of documents. Antique documents are usually delicate and need to be handled with care. Also, a poor state of preservation and the use of unrecognizable font types make automatic text recognition more difficult, hence requiring a further human revision to perform text corrections. This makes the participation of experts in the digitization process mandatory and, therefore, costly. In this paper, we present a framework for managing the workflow of the digitization of large collections of antique documents. We describe the digitization process, and a tool supporting all of its phases and tasks. We also present a case study in which we describe how the workflow management system was applied to the digitization of more than 10,000 documents from journals of the 19th century. In addition, we describe the resulting digital library, focusing on the most important technological issues. 相似文献
14.
文本分割是信息检索的一个重要问题。文本分割是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界,其分割对象可以是书面的、语音的或者动态的文本。文本线性分割的主要目的是找出主题边界,它对于很多自然语言处理如自动文摘、问答系统等来说具有重要的价值。在大量文献的基础上,总结归纳文本线性分割中的主要方法,并提出未来的研究方向。 相似文献
15.
Irene Diaz-Valenzuela Maria J. Martin-Bautista Maria-Amparo Vila Jesus R. Campaña 《Expert systems with applications》2013,40(10):3994-4002
In this paper we introduce an automatic system to perform authority control in digital libraries based on data mining techniques. This system is able to find the different representations for an author name as well as to distinguish between different authors sharing the same name. Using that information, the system shows the user the results of a search over a digital library properly grouped according to their authorship. To accomplish this task, it only uses information that can be directly obtained from the digital library itself without any kind of external data. The system has been tested using different digital libraries on the web. 相似文献
16.
信息过滤中的中文自动分词技术研究 总被引:2,自引:0,他引:2
文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。 相似文献
17.
数字资源管理系统的设计与实施方案 总被引:1,自引:0,他引:1
薛辉明 《数字社区&智能家居》2006,(3):26-26,133
数字图书馆建设的关键是建设并合理的管理数字资源。本文提出一个图书馆的数字化资源管理的方案。该方案可以对文本、超文本、图像、动画、科学数据等多种形式的文档进行数字资源采集,进而进行规范性地加工、保存、管理采创建数字资源。最后提供在互联网上的发布与检索服务来进行数字资源传递。 相似文献
18.
薛辉明 《数字社区&智能家居》2006,(8)
数字图书馆建设的关键是建设并合理的管理数字资源。本文提出一个图书馆的数字化资源管理的方案。该方案可以对文本、超文本、图像、动画、科学数据等多种形式的文档进行数字资源采集,进而进行规范性地加工、保存、管理来创建数字资源,最后提供在互联网上的发布与检索服务来进行数字资源传递。 相似文献
19.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。 相似文献
20.
Xiaofan Lin Yan Xiong 《International Journal on Document Analysis and Recognition》2006,8(2-3):132-143
As a special type of table understanding, the detection and analysis of tables of contents (TOCs) play an important role in the digitization of multi-page documents. Most previous TOC analysis methods only concentrate on the TOC itself without taking into account the other pages in the same document. Besides, they often require manual coding or at least machine learning of document-specific models. This paper introduces a new method to detect and analyze TOCs based on content association. It fully leverages the text information throughout the whole multi-page document and can be directly applied to a wide range of documents without the need to build or learn the models for individual documents. In addition, the associations of general text and page numbers are combined to make the TOC analysis more accurate. Natural language processing and layout analysis are integrated to improve the TOC functional tagging. The applications of the proposed method in a large-scale digital library project are also
discussed. 相似文献