张久杰
- 作品数:4 被引量:18H指数:3
- 供职机构:包头师范学院信息科学与技术学院更多>>
- 发文基金:内蒙古自治区自然科学基金国家自然科学基金内蒙古自治区高等学校科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Token编辑距离检测克隆代码被引量:13
- 2015年
- 针对当前Type-3克隆代码检测工具较少、效率偏低等问题,提出了一种基于Token的能有效检测Type-3克隆代码的检测方法。该方法同时能有效检测Type-1和Type-2克隆代码。首先将源代码Token化得到特定代码粒度的Token串,其次将所有Token串的定长子串进行映射,在对映射信息进行查询的基础上,利用编辑距离算法确定克隆对,然后通过并查集算法快速构建克隆群,最终反馈克隆代码信息。实现了原型工具FClones,利用基于代码突变的框架对工具进行了评价,并与领域内较优秀的两款工具Ni Cad及Sim Cad进行了对比。实验结果表明,FClones在检测三类克隆代码时查全率均不低于95%,查准率均不低于98%,能更好地检测Type-3克隆代码。
- 张久杰王春晖张丽萍侯敏刘东升
- 关键词:克隆代码克隆检测TOKEN
- 基于演化模式特征的克隆代码分类
- 2017年
- 克隆代码稳定性与它在多版本演化过程中的变化模式相关,综合这些变化模式并构建自动分类模型,实现克隆代码稳定与易变的特征标注,便于开展克隆分类方面的研究。从克隆演变、克隆规模变化与克隆修改3个维度将克隆演化分为12种演化模式,通过版本间克隆的差异分析识别这12种模式,记录变化参数,使用克隆聚类特征模型计算每个克隆实例的特征向量,用聚类算法实现克隆稳定性分类。对两款软件进行实验分析,分析结果表明,基于该方法可以得到关于克隆稳定性的有效分类数据集。
- 王春晖张久杰刘志国张丽萍刘东升
- 关键词:克隆代码克隆分析
- 基于版本间克隆映射的演化模式识别及谱系构建被引量:4
- 2016年
- 针对当前克隆谱系的构建方法较为复杂、演化模式亟需扩充等问题,提出了新的克隆代码演化模式,并根据软件版本间的克隆代码映射关系自动构建了克隆谱系。首先,针对软件每一版本进行克隆检测并利用潜在狄利克雷分配(LDA)抽取克隆代码的主题信息;然后,根据克隆代码主题的相似度确定版本间克隆代码的映射关系;进而,根据已有的映射关系为克隆代码添加演化模式并分析演化特征;最终,结合映射信息与演化模式信息完成克隆谱系的构建。针对4款开源软件进行了克隆谱系的构建实验,实验结果表明所提克隆谱系构建方法可行,证实了新提出的演化模式在克隆代码演化过程中确实存在。实验发现约90%的克隆代码在软件演化过程中比较稳定,约67%的克隆群经历的发布版本数不超过发布版本总数的一半。实验结论及理论分析将为克隆代码的后续研究及克隆代码的维护与管理提供有力支持。
- 张久杰翟晔王春晖张丽萍刘东升
- 关键词:克隆代码主题建模软件维护
- 基于改进向量空间模型的克隆群映射方法被引量:3
- 2016年
- 针对Type-3克隆代码映射方法少且效率低等问题,提出了一种基于改进向量空间模型(VSM)的映射方法。该方法将改进的VSM引入到克隆代码分析中,从而得到一种可有效映射Type-1、Type-2以及Type-3克隆代码的克隆群映射方法。首先,将克隆群文档预处理得到去除无用词的代码文档,同时提取克隆群文档的文件名、函数名等特征项;其次,提取并构建克隆群词频向量空间,利用余弦算法计算出克隆群相似度;然后,通过克隆群相似度和特征项的匹配构建克隆群映射,最终得到克隆群映射结果。对5款开源软件进行实验并人工验证,所提方法能在低时耗的前提下,保证查全率和查准率均不低于96.1%和97.1%。实验结果表明了所提方法的可行性,为后期软件演化分析提供数据支撑。
- 陈桌张丽萍王欢张久杰王春晖
- 关键词:克隆代码向量空间模型词频