首页 | 本学科首页   官方微博 | 高级检索  
     

基于主题的文档与代码间关联关系的提取研究
引用本文:许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5).
作者姓名:许冶冰  刘超
作者单位:北京航空航天大学计算机学院,北京,100191
摘    要:软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高。

关 键 词:可追踪链  主题模型  隐含狄利克雷分配(LDA)  逆向工程

Research on retrieval methods for traceability between Chinese documentation and source code based on LDA
XU Yebing , LIU Chao.Research on retrieval methods for traceability between Chinese documentation and source code based on LDA[J].Computer Engineering and Applications,2013,49(5).
Authors:XU Yebing  LIU Chao
Abstract:In order to establish traceability between Chinese documentations and source codes more effectively,this paper proposes one method based on LDA model.It names the topic word-based Traceability Retrieval Method(TRM)in which the topic words are extracted according to Shannon information.Experimental result shows that,compared with the LSI method,the topic word method can increase the recall and precision from 2% to 5%.
Keywords:traceability recovery  topic model  Latent Dirichlet Allocation(LDA)  reverse engineering
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号