首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于语言节奏的大规模文档去重算法研究   总被引:1,自引:1,他引:0       下载免费PDF全文
通过对Web中大规模文档研究发现,文档中的自然段落具有特殊的语言节奏。提出了一种基于语言节奏的文档重复性检测方法,通过构建文档中自然段落的语言节奏码并进行重复性分析,实现了基于段粒度的文档重复性检测。实验表明,此方法具有良好的召回率和准确率,可以将内容完全重复的文档、部分段落内容重复的文档及打乱段落顺序重组文档的重复性均检测出来,检测精度高且占用系统资源少。  相似文献   

2.
本文研究了传感器动态性能重复性,先提出传感器动态性能能重复性的指标及其计算方法和步骤,然后以一种压力传感器为例计算了它们的动态重复性,并给出了实验数据和计算结果。  相似文献   

3.
提出一种新的基于聚类挖掘的入侵检测方法。通过将入侵检测方法中的协议分析技术应用于数据清洗中,使得聚类数据挖掘理论与入侵检测实践更加贴近。此外,它还对聚类数据挖掘中的一些经典算法进行了扩展,以增强入侵检测的决策分析的能力。  相似文献   

4.
本文在阐述了本体及企业本体模型的基础上,阐明了企业本体在企业中的重要意义,鉴于数据挖掘技术所特有的作用和优势,有选择地介绍了数据挖掘原语DMQL的内容,提出了一种基于数据挖掘原语DMQL建立企业本体模型的方法,并以一个企业本体实例有力地证明了该技术的可行性。由挖掘信息来部分替代传统的领域专家的作用,使本体的建立更加智能化,减少了可能由主观因素和人为失误所带来的不良后果。  相似文献   

5.
近年来,数据挖掘技术的应用越来越广泛。本文研究了空间挖掘技术的理论、过程及方法.并在此基础上提出了一种基于MapX的空间数据挖掘系统结构,以及挖掘过程中所需的数据预处理方法和挖掘算法,为数据挖掘与GIS的集合找到了一种解决方法。  相似文献   

6.
入侵检测是近些年提出了一种保护网络安全的一种技术,而数据挖掘的加入使得其检测网络安全的功能更加强大。本文主要对网络入侵检测技术、基于数据挖掘的网络入侵检测系统、Apriori算法、基于数据挖掘的网络入侵检测系统的优点进行了分析。  相似文献   

7.
随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”(DataMining)技术应运而生。首先文章较全面的回顾了数据挖掘技术的研究现状,并且详细介绍了目前数据挖掘技术的一些应用示例,并提出了在数据挖掘中一些问题。  相似文献   

8.
概述:iPhone4S全无突破么?未必。 在该终端应用上,一款种名为Siri的应用非常引人关注。该技术源于美国国防部高级研究规划局发布的“数字助理计划”——通过计算机虚拟一个具备学习能力的数字助理,帮助军方处理一些重复性高、技术含量低的工作。  相似文献   

9.
根据入侵检测中协议分析技术与聚类数据挖掘技术各自不同的检测特点,提出了一种新的入侵检测方法,将协议分析技术融合到聚类数据挖掘中。通过数据清洗和协议分析不但可以有效减少聚类挖掘的数据量,快速地检测出入侵行为,而且可以让被挖掘的数据更加符合聚类数据挖掘的先决条件,提高了聚类数据挖掘检测的效率。  相似文献   

10.
数据挖掘技术综述   总被引:8,自引:0,他引:8  
随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”(DateMining)技术应运而生。本文主要介绍了数据挖掘的基本概念以及数据挖掘的方法;本文对数据挖掘的应用及其发展前景也进行了描述。  相似文献   

11.
尹云飞  钟智  黄发良 《计算机工程》2005,31(8):52-53,139
提出了将数据挖掘应用于软件工程学中,数据挖掘是一个涉及多领域的交叉学科,它拥有许多成熟的技术。其中,模糊聚类法就是数据挖掘的核心技术之一。在对大量的软件工程数据进行挖掘处理后,经过λ水平截集,将相似的模块聚为一类,作为模块评估的基础,从中得出有价值的知识模式,用于指导软件工程实践。  相似文献   

12.
随着人类基因组计划的完成,涌现了大量旨在从生物数据中分析和挖掘有关知识的生物信息软件,对这些软件进行Web发布以提供共享服务也就变得日益重要.采用B/S模式、模板技术以及Java相关技术,设计和实现了一个生物信息软件Web自动发布系统(简称BSWAP),它能方便地将本地软件发布到Internet,提供软件的在线计算、实时下载等服务.该系统已应用于人类遗传基因信息数据整合及共享信息平台(简称HGRP).  相似文献   

13.
基于策略模式的中医数据挖掘平台   总被引:1,自引:0,他引:1  
随着数据挖掘技术的发展和中医信息化的逐渐深入,很多数据挖掘方法被应用到中医研究领域。针对面向对象软件设计模式中的策略模式在数据挖掘科研软件平台设计开发上的应用进行了研究,并提出了平台设计概要。在此基础之上,提出了一种中医数据挖掘研究的思想方法:将中医问题(数据)封装、将数据挖掘方法(算法)封装,实现统一的接口,从而实现在某一类中医问题中尝试不同的数据挖掘方法、将某一种数据挖掘方法应用于不同的中医问题。基于上述思想方法,实现了中医数据挖掘平台,用于中医相关领域的数据挖掘研究。  相似文献   

14.
Software quality models can predict which modules will have high risk, enabling developers to target enhancement activities to the most problematic modules. However, many find collection of the underlying software product and process metrics a daunting task.Many software development organizations routinely use very large databases for project management, configuration management, and problem reporting which record data on events during development. These large databases can be an unintrusive source of data for software quality modeling. However, multiplied by many releases of a legacy system or a broad product line, the amount of data can overwhelm manual analysis. The field of data mining is developing ways to find valuable bits of information in very large databases. This aptly describes our software quality modeling situation.This paper presents a case study that applied data mining techniques to software quality modeling of a very large legacy telecommunications software system's configuration management and problem reporting databases. The case study illustrates how useful models can be built and applied without interfering with development.  相似文献   

15.
软件工程数据挖掘研究进展   总被引:5,自引:0,他引:5       下载免费PDF全文
随着计算机软件的规模不断扩大,手工获取、开发和维护软件所需的信息越来越困难。数据挖掘技术可从软件工程数据中自动发现所需信息,加快软件开发进程。对软件工程数据挖掘的研究进展进行了综述。概述了软件工程数据挖掘的基本概念与技术挑战;详细评述了在软件工程各个阶段,数据挖掘技术所能发现的信息/知识,以及获取这些信息/知识的意义、难点、步骤和方法,重点介绍了数据预处理和数据表示方法;对软件工程数据挖掘研究的发展趋势进行了展望。  相似文献   

16.
朱锐  李彤  莫启  何臻力  于倩  王一荃 《软件学报》2018,29(11):3455-3483
为了解决软件过程数据因活动信息及案例属性的缺失而无法应用传统过程挖掘方法的问题,以软件过程数据为研究对象,提出了一种双层次的软件过程挖掘方法.在活动层,提出加权结构连接向量模型对过程日志进行向量化,通过平均活动熵来确定过程日志模糊聚类的结果,将聚类结果作为活动信息支持后续挖掘工作的开展;在过程层,以启发式关系度量为基础,针对非完全循环进行研究,提出了过程层单触发序列循环划分的日志完备性条件,并进一步给出了循环归属的度量方法.基于大量真实软件过程数据的实验结果表明了双层次的软件过程挖掘方法的可行性及正确性.  相似文献   

17.
提高传感系统准确度的软件方法及其应用   总被引:3,自引:0,他引:3  
传感系统的2项主要误差是非线性误差和重复性,为了提高传感系统的准确度,提出了减小这2项误差的软件方法:即用神经网络技术减小非线性; 用微机软件数字滤波技术减小重复性.与传统技术比,系统的量程扩大30%以上,非线性减小到0.1%FS以下,重复性也大幅减小,应用效果显著.  相似文献   

18.
全球开源软件生态中孕育的大众化软件生产模式正快速形成一种新型的软件生产力,在软件开发和应用各个环节发挥了巨大作用.大众化软件生产的数据规模日趋庞大、协同范围不断扩展、管理模式高度精简,这些全球化特征使其在软件复用、协同开发、知识管理等环节面临诸多挑战,迫切需要新的理论指导和工具支持.本文首先界定了大众化软件生产活动的分布范围、基本过程和数据形态,然后从软件复用、协同开发、知识管理三个核心环节对开源社区数据挖掘技术的研究工作进行了归类与分析,最后总结了该领域研究工作存在的问题和未来发展趋势.  相似文献   

19.
基于场景技术的嵌入式软件测试用例生成方法   总被引:1,自引:0,他引:1  
软件测试自动化是当前软件测试的发展趋势.场景技术的引入可以更有效地进行测试用例的描述,从而有助于实现软件测试自动化,提高测试效率和测试的可维护性、可重复性.从被测系统的文档分析入手,将场景技术运用于测试用例生成过程中,提出了嵌入式软件测试用例生成方法,并将该方法运用到实际的软件测试中,验证了该方法的正确性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号