首页 | 本学科首页   官方微博 | 高级检索  
     

面向软件仓库挖掘的数据驱动特征提取方法
引用本文:李晓晨,江贺,任志磊.面向软件仓库挖掘的数据驱动特征提取方法[J].计算机科学,2015,42(9):159-164.
作者姓名:李晓晨  江贺  任志磊
作者单位:大连理工大学软件学院 大连116621,大连理工大学软件学院 大连116621,大连理工大学软件学院 大连116621
基金项目:本文受教育部新世纪优秀人才支持计划(NCET-13-0073),国家自然科学基金(61175062,4)资助
摘    要:在软件仓库挖掘领域, 通常 将软件工程任务转换成数据挖掘问题进行解决。领域特征的使用严重影响了软件任务的解决效果。然而,如何根据特定任务从软件仓库数据中提取有价值的特征,在软件仓库挖掘领域尚缺乏系统的研究。数据驱动特征提取方法是一种新的特征提取方法。对于给定的软件工程任务,该方法从任务的数据集中选取部分数据(如源代码、缺陷报告等),招募若干志愿者人工完成该任务,并要求志愿者说明在人工完成特定软件工程任务时所考虑的因素。通过分析这些因素,可以提取所需的领域特征。以缺陷报告摘要任务为例进行实验,结果表明新方法能够发现高效的领域特征,并取得比现有方法更好的预测效果。

关 键 词:软件仓库挖掘  数据驱动方法  特征提取  缺陷报告摘要

Data Driven Feature Extraction for Mining Software Repositories
LI Xiao-chen,JIANG He and REN Zhi-lei.Data Driven Feature Extraction for Mining Software Repositories[J].Computer Science,2015,42(9):159-164.
Authors:LI Xiao-chen  JIANG He and REN Zhi-lei
Affiliation:School of Software,Dalian University of Technology,Dalian 116621,China,School of Software,Dalian University of Technology,Dalian 116621,China and School of Software,Dalian University of Technology,Dalian 116621,China
Abstract:In mining software repositories(MSR),software tasks are usually transformed into data mining problems for solving.Domain-specific features heavily impact the solving of software tasks.However,no systematic investigation has been conducted on the issue of extracting features for specific software tasks.In this study,data driven feature extraction(DDFE) is a new feature extraction approach.For a software task,DDFE extracts a set of software data(e.g.,source code,bug reports) and employs some volunteers to manually accomplish this software task.During the process,these volunteers are requested to submit their reasons under consideration.From these submitted reasons,DDFE can extract domain-specific features for software tasks.The experimental results on the task of bug report summarization demonstrate that DDFE may find effective features and achieve better predictive results against the state-of-the-art algorithm in the literatures.
Keywords:Mining software repositories  Data driven approach  Feature extraction  Bug report summarization
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号