王欢
- 作品数:5 被引量:11H指数:2
- 供职机构:内蒙古师范大学计算机与信息工程学院更多>>
- 发文基金:内蒙古自治区自然科学基金国家自然科学基金内蒙古自治区教育厅资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于贝叶斯网络的克隆代码有害性预测被引量:8
- 2016年
- 在软件开发过程中,程序员的复制、粘贴活动会产生大量的克隆代码,而那些发生不一致变化的克隆代码往往对程序是有害的。为了解决该问题,有效地发现程序中的有害克隆代码,提出一种基于贝叶斯网络的克隆有害性预测方法。首先,结合软件缺陷研究领域与克隆演化领域的相关研究成果,提出了两大类表征克隆代码信息的特征,分别是静态特征和演化特征;其次,通过贝叶斯网络核心算法来构建克隆有害性预测模型;最后,预测有害克隆代码发生的可能性。在5款C语言开源软件共99个版本上对克隆有害性预测模型的性能进行评估,实验结果表明该方法能够有效地实现对克隆代码有害性的预测,降低有害克隆代码对软件的威胁,提高软件质量。
- 张丽萍张瑞霞王欢闫盛
- 关键词:克隆代码贝叶斯网络克隆演化
- 克隆代码有害性预测中分类不平衡问题的解决方法
- 2016年
- 针对克隆代码有害性预测中有害和无害数据分类不平衡的问题,提出一种基于随机下采样(RUS)的能够自动调整分类不平衡的K-Balance算法。首先对克隆代码提取静态特征和演化特征构建样本数据集;然后选取比例不同的分类不平衡新数据集;接着对已选取的新数据集进行有害性预测;最后,通过观察分类器的不同表现自动选择一个最适合的分类不平衡比例值。在7款C语言开源软件共170个版本上对克隆有害性预测模型的性能进行评估,并和其他分类不平衡解决方法进行对比,实验结果表明所提方法对有害和无害克隆的分类预测效果(受试者工作特征曲线下方面积(AUC)值)提高了2.62个百分点~36.70个百分点,能有效地改善分类不平衡的预测问题。
- 王欢张丽萍闫盛
- 关键词:克隆代码
- 基于贝叶斯网络的克隆代码有害性预测研究
- 克隆代码对软件的开发与维护产生了重大影响.为了有效地解决有害克隆代码的评价问题,提出一种基于贝叶斯网络的克隆有害性预测方法.从发生了不一致改变的克隆可能引发程序错误,进而导致潜在的维护费用这一观点出发,将发生不一致改变的...
- 张丽萍张瑞霞王欢闫盛
- 关键词:软件开发克隆代码贝叶斯网络克隆演化
- 文献传递
- 克隆代码有害性预测中的特征选择模型被引量:2
- 2017年
- 为解决克隆代码有害性预测过程中特征无关与特征冗余的问题,提出一种基于相关程度和影响程度的克隆代码有害性特征选择组合模型。首先,利用信息增益率对特征数据进行相关性的初步排序;然后,保留相关性排名较高的特征并去除其他无关特征,减小特征的搜索空间;接着,采用基于朴素贝叶斯等六种分类器分别与封装型序列浮动前向选择算法结合来确定最优特征子集。最后对不同的特征选择方法进行对比分析,将各种方法在不同选择准则上的优势加以利用,对特征数据进行分析、筛选和优化。实验结果表明,与未进行特征选择之前对比发现有害性预测准确率提高15.2~34个百分点以上;与其他特征选择方法比较,该方法在F1测度上提高1.1~10.1个百分点,在AUC指标上提升达到0.7~22.1个百分点,能极大地提高有害性预测模型的准确度。
- 王欢张丽萍闫盛刘东升
- 关键词:克隆代码特征子集信息增益率
- 基于改进向量空间模型的克隆群映射方法被引量:3
- 2016年
- 针对Type-3克隆代码映射方法少且效率低等问题,提出了一种基于改进向量空间模型(VSM)的映射方法。该方法将改进的VSM引入到克隆代码分析中,从而得到一种可有效映射Type-1、Type-2以及Type-3克隆代码的克隆群映射方法。首先,将克隆群文档预处理得到去除无用词的代码文档,同时提取克隆群文档的文件名、函数名等特征项;其次,提取并构建克隆群词频向量空间,利用余弦算法计算出克隆群相似度;然后,通过克隆群相似度和特征项的匹配构建克隆群映射,最终得到克隆群映射结果。对5款开源软件进行实验并人工验证,所提方法能在低时耗的前提下,保证查全率和查准率均不低于96.1%和97.1%。实验结果表明了所提方法的可行性,为后期软件演化分析提供数据支撑。
- 陈桌张丽萍王欢张久杰王春晖
- 关键词:克隆代码向量空间模型词频