管宇
- 作品数:3 被引量:5H指数:1
- 供职机构:北京邮电大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于扩散模型生成数据重构的客户流失预测
- 2024年
- 在数据挖掘领域普遍存在数据不平衡影响到模型预测精度的问题,同时还存在未考虑用户隐私保护的问题.生成伪造数据是一种重要的解决方法,但在以结构化数据为主的场景中,由于存在数据特征维度多且不相关等特点,生成高质量的数据存在挑战.考虑到扩散模型在图像生成等任务中被成功应用,以客户流失预测为典型应用场景,尝试将扩散模型应用到客户流失预测任务中.针对该场景数据中的数值型特征和类别型特征,通过高斯扩散模型和多项式扩散模型获得生成数据,并对模型预测效果和数据隐私保护能力进行研究和分析.在多个领域的客户流失数据上进行了大量实验,探索应用生成数据对真实数据融合重构的可能性.实验结果表明基于扩散模型可生成高质量数据,且对多种预测方法均有一定提升,可实现缓解数据不平衡问题.同时,基于扩散模型生成的数据分布更接近真实数据,具有应用于用户隐私保护的潜在价值.
- 杨斌王正阳程梓航赵慧英王鑫管宇程新洲
- 关键词:客户流失用户隐私数据生成
- 吉林互联网应急中心资产管理系统的设计与开发
- 行政事业单位资产是国有资产的重要组成部分,其运作质量和效益,直接关系到我国公共管理与公共服务的质量和效益,也直接影响着公共财政支出的结果与效率。为克服管理体制不顺、管理职责不清,家底不清、账实不符,闲置浪费严重、使用效率...
- 管宇
- 关键词:资产管理系统全生命周期B/S模式
- 一种采用对抗学习的跨项目缺陷预测方法被引量:5
- 2022年
- 跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数据分布的差异,导致跨项目预测效果不佳.基于生成式对抗网络(generative adversarial network,GAN)中的对抗学习思想,在鉴别器的作用下,通过改变目标项目特征的分布,使其接近于源项目特征的分布,从而提升跨项目缺陷预测的性能.具体来说,提出的抽象连续生成式对抗网络(abstract continuous generative adversarial network, AC-GAN)方法包括数据处理和模型构建两个阶段:(1)首先将源项目和目标项目的代码转换为抽象语法树(abstract syntax tree,AST)的形式,然后以深度优先方式遍历抽象语法树得出节点序列,再使用连续词袋模型(continuous bag-of-words model,CBOW)生成词向量,依据词向量表将节点序列转化为数值向量;(2)处理后的数值向量被送入基于GAN网络结构的模型进行特征提取和数据迁移,然后使用二分类器来判断目标项目代码文件是否有缺陷. AC-GAN方法在15组源-目标项目对上进行了对比实验,实验结果表明了该方法的有效性.
- 邢颖钱晓萌管宇章世豪赵梦赐林婉婷
- 关键词:抽象语法树