首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
文本分类中基于基尼指数的特征选择算法研究   总被引:14,自引:3,他引:14  
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.  相似文献   

2.
持久对象是一种能够独立于创建对象的应用程序而存在,以实现在不同应用程序之间对其共享的对象。文本介绍在Windows环境中和用OWL流式管理器实现这种持久对象的方法。OWL流式管理器主要依赖了三个数据库:流式类注册数据库、读出和写入对象注册数据来实现持久对象读写管理和冲突处理。  相似文献   

3.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求.  相似文献   

4.
(2)万能输入法编码字典管理器 编码字典管理器主要用于管理输入法的编码字典,有以下三种格式: ①将已编译好的编码字典编译为文本形式的编码源文件,命令格式如下:  相似文献   

5.
周勇 《计算机系统应用》2012,21(12):190-192
研究了文本对象在不可分辨关系下的自动聚类方法.在自动聚类过程中,首先把文本集转化为让机器可以处理的布尔文本信息系统;其次在信息系统上定义对象间的不可分辨关系,提出利用不可分辨关系进行聚类的理论基础;然后对算法进行描述,并用实验进行验证;最后分析该算法的时间复杂度和缺点,并提出具体的改进措施.基于不可分辨关系的文本自动聚类算法具有理论基础和较好的实验效果表明该方法具有较好的应用性.  相似文献   

6.
使用最大熵模型进行中文文本分类   总被引:52,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   

7.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

8.
一种高性能的两类中文文本分类方法   总被引:35,自引:0,他引:35  
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.  相似文献   

9.
文本分类是处理电子可读文本的重要手段,本文提出了基于标题的文本分类机制.其基本思想是:鉴于文本标题的重要性和简洁性,利用汉语语义分类树寻求概念上的扩充,利用语料库的关联矩阵,进行关联扩充,以丰富标题的语义内涵,从而获取较高精度的文本分类结果.该方法不依赖于汉语分析器和相应的领域知识库,速度较快。应用面较广.  相似文献   

10.
文本自动综述系统的研究与实现   总被引:6,自引:0,他引:6  
文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表段产生综述结果实现信息压缩.实验结果表明,该方法是有效的,具有一定的实用价值.  相似文献   

11.
本文详细地叙述了Protel 99的文件管理器功能及其在图文混合编辑中的应用, 并给出了具体的操作步骤。  相似文献   

12.
针对在文档开发和管理方面存在的问题,设计与实现基于Docbook规范的文档格式转换工具.该工具将文档中自定义的可扩展标识语言(XML)和HTML文件转换为符合Docbook规范的文件,通过XSLT转换为其他格式的文件,实现将自定义标签的XML文件自由转换为多种格式的文件,从而提高文档开发和管理的效率.  相似文献   

13.
可配置的CMS文档生命周期管理方法   总被引:1,自引:0,他引:1       下载免费PDF全文
闫勇  万淑超  杨燕  黄涛 《计算机工程》2008,34(22):40-42
以一个作为门户子系统的内容管理系统为应用背景,分析内容管理中文档生命周期的管理,包括多级权限、用户、文档状态与操作、状态转换、并发控制等,提出一个可配置的、与类RBAC访问控制机制松耦合且紧密配合的文档生命周期管理方法,列举几个可用模型,论述模型实现的要点。  相似文献   

14.
文档转换工具的设计与实现   总被引:2,自引:0,他引:2       下载免费PDF全文
项湜伍  曹峰 《计算机工程》2008,34(21):48-50
针对在文档开发和管理方面存在的问题,设计与实现基于Docbook规范的文档格式转换工具。该工具将文档中自定义的可扩展标识语言(XML)和HTML文件转换为符合Docbook规范的文件,通过XSLT转换为其他格式的文件,实现将自定义标签的XML文件自由转换为多种格式的文件,从而提高文档开发和管理的效率。  相似文献   

15.
以ACE为底层平台,以3G无线网管系统为应用背景,设计并实现了网元文档服务.网元文档采用XML格式存储,以动态更新方式生成,以FTP方式和中转方案上传,满足了用户需求;提供了TMN标准中各模块对网元信息遗漏的解决方案.  相似文献   

16.
Maintaining, customizing, sharing and reusing ISO9000 quality documents are essential for many organizations, especially those who work as virtual enterprises (VE). In a VE, the documents must be shared among organizations to take the full advantages of the recent Internet advances. XML is a new browser-based language standard. The purpose of this research is to explore the capabilities of XML and Internet technologies in electronic document management environments to comply with the ISO9000 requirements. This research has demonstrated several XML-enabled examples beneficial for the main functions of ISO9000 document management such as document creation, document change, document control and document access. The implemented examples demonstrate the effectiveness and efficiencies of document customizing, querying, hierarchical linking, tracking and reusing. The research results solve the ISO9000 document-related problems among working partners and facilitate document flow and information integration of value chain.  相似文献   

17.
表格文档在日常生活中运用十分广泛 ,它应用于人口普查、银行票据、各类报表等领域 ,对这类文档进行计算机自动处理具有重要的现实意义。表格文档信息处理系统主要由文档原始图像获取、文档结构提取和填写信息识别等部分组成。在分析了国内外表格文档信息自动录入系统的优缺点后 ,采用一种基于接触式图像传感器 (CIS)摄取表格文档的原始图像信号 ,利用硬件获得了高质量的图像信号。采用光学字符识别 (OCR)技术对填写的表格文档信息进行识别。该表格文档信息处理系统具有对表格文档的纸张和填写的要求低和识别准确度高的特点。  相似文献   

18.
In order for enterprises to collaborate at the business-process level, they must deal with two kinds of processes: the public conversation processes specifying inter-enterprise document flows, and the private business processes specifying local workflows of document manipulation and other related tasks. The provisioning, interaction and integration of conversation management and business process management, have become the common interest of the e-business industry. In this paper we discuss the relationship and interaction between conversation management and business process management; point out the difference between public conversation processes (e.g. BPSS processes) and peer-conversation processes (e.g. BPEL4WS processes). We then illustrate our collaborative process management system that has functionally separated conversation manager and business process manager. The conversation manager is based on the ebXML BPSS standard; it is used for validating document exchange at run-time and for activating corresponding process tasks. We have also proposed the conversation model driven asynchronous task activation mechanism for interaction between a conversation process and the coupled business process dynamically. With this mechanism, generic APIs between the conversation manager and the business process manager can be easily defined and used by multiple plugged-in conversation managers.  相似文献   

19.
光网络流量工程的控制机制研究   总被引:1,自引:0,他引:1  
密集波分复用DWDM(DenseWavelengthDivisionMultiplex)光网络有着十分丰富的带宽,并且能够根据实时需要提供带宽,所以逐渐成为Internet骨干核心网。该文提出一种在光网络中实施流量工程TE(TrafficEngineering)的建议,尤其突出了多协议波长交换MPLS(Multi-ProtocolLambdaSwitch)控制平面和DWDM网络的综合。首先简单描述了光交叉连接OXC(OpticalCrossConnect)的一些基本概念,并介绍了利用TE管理器在两个或多个域之间进行组合控制的概念。进一步定义了在网络单元(如OXC,标记交换路由器LSR(LabelSwitchRouter),TE管理器)之间进行交互的控制消息。并介绍了TE管理的流程,包括动态带宽预留,快速恢复和回收网络资源。  相似文献   

20.
基于动态逻辑许可证的PDF版权管理系统   总被引:1,自引:1,他引:0       下载免费PDF全文
王景艳  钟勇  朱珍 《计算机工程》2009,35(11):169-171
电子文档版权管理是数字版权管理的重要研究领域,提出一种PDF电子文档版权保护方案,该方案的权限管理基于一种具有强大表达力、灵活性和开放权限管理能力的动态逻辑许可证,具有详细的文档权限控制方法,并通过内容级的PDF文档加密方法增强文档的安全性。对系统模型、实现结构和方法进行说明,并与相关方法进行对比和应用示例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号