但红卫
- 作品数:8 被引量:24H指数:3
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金浙江省教育厅科研计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 高效隐私保护频繁模式挖掘算法研究被引量:5
- 2015年
- 阐述了隐私保护数据挖掘的目标,即在获取有效的数据挖掘结果的同时,满足用户对隐私保护的要求。针对个体用户及组织用户的隐私保护,论述了不同的方法,并归纳出隐私保护数据挖掘中所采用的两种主流算法。改进了高效隐私保护关联规则挖掘算法(EMASK)中需要完全的数据库扫描并且进行多次比较操作的弊端,提出了基于粒度计算的高效隐私保护频繁模式挖掘算法(BEMASK)。该算法将关系数据表转换成面向机器的关系模型,数据处理被转换成粒度计算的方式,计算频繁项集变成了计算基本颗粒的交集。特别是数据的垂直Bitmap表示,在保证准确性不降低的情况下,一方面减少了I/O操作的次数,另一方面较大地提高了效率。
- 程舒通徐从富但红卫
- 关键词:数据挖掘隐私保护知识粒度
- 基于改进频繁模式聚类算法的网站结构优化被引量:2
- 2008年
- 分析了现有频繁模式聚类算法的不足,提出了距离函数改进,并在模式聚类函数的基础上生成一个压缩的偏序(partial order)的算法(FCWSO算法)。实验结果显示该算法可以对频繁序列模式进行高效、高质量的压缩,可以得到数量更少、信息量更大的模式,从而提高发现的频繁访问序列的兴趣性。
- 程舒通徐从富但红卫
- 关键词:数据挖掘频繁序列模式WEB设计
- 基于偏序的频繁序列模式压缩算法研究
- 伴随计算机应用的普及,特别是网络技术的高速发展,人们利用信息技术产生和搜集数据的能力大幅度提高,而现实世界中的数据也是越来越丰富,从大量的数据中提取知识也变得越来越困难。数据挖掘的发展大大的方便了知识的提取,但随着计算处...
- 但红卫
- 关键词:数据挖掘频繁序列模式数据压缩偏序知识提取
- 文献传递
- 基于频繁序列模式压缩技术的网站结构优化被引量:6
- 2007年
- 基于频繁序列模式压缩技术的网站结构优化算法旨在发现用户在浏览过程中频繁访问的序列关联,为优化站点结构提供有力的依据。分析了现有频繁模式聚类算法的不足,提出了在模式聚类函数的基础上生成一个压缩的偏序(Partial Order)的算法,实验结果显示该算法可以对频繁序列模式进行高效、高质量的压缩,可以得到数量更少、信息量更大的模式,从而提高发现的频繁访问序列的兴趣性。
- 程舒通徐从富但红卫
- 关键词:数据挖掘频繁序列模式WEB设计
- 基于粒度计算的减量式隐私保护数据挖掘被引量:2
- 2015年
- 为了能够更好地开展隐私保护数据挖掘工作,描述该领域的研究进展。针对基于随机的干扰方法中典型代表EMASK算法,用粒度计算的思想提出改进意见,将关系数据表转换成面向机器的粒度关系模型。这种计算方法使用了数据的垂直Bitmap表示,利用位操作的方法来保证准确性不降低的情况下,减少I/O操作的次数,降低空间开销,同时在生成频繁项集时,也记录了其在扭曲后数据中的支持度,减少了文件的访问次数,由此提高计算效率。针对现实世界事务数据库变化情况,利用减量式更新算法技术来解决减量式事务数据库频繁项集计算问题。实验结果证明,无论是在固定减量集数据库还是可变减量集数据库处理中,BDEMASK相对于EMASK而言,时间效率都有很大幅度的提高。
- 程舒通徐从富但红卫
- 关键词:隐私保护知识粒度
- 频繁模式聚类算法改进研究被引量:1
- 2008年
- 从模式的相似度信息和支持度大小两方面分析了前人聚类算法中采用的距离函数的缺陷,提出了改进距离函数的新算法—Mix算法。实验研究证明,算法在实现过程中可以相应减少时间消耗和聚类结果的错误程度,提高聚类质量,从而得到比较好的聚类效果。
- 程舒通徐从富但红卫
- 关键词:数据挖掘聚类距离函数
- 基于偏序压缩技术的频繁序列模式数据挖掘被引量:1
- 2008年
- 基于频繁序列模式的压缩技术旨在提高数据挖掘结果的可用性和可理解性,从庞大的序列模式中发现有用的知识。分析了现有频繁模式压缩算法的不足,提出了在模式聚类函数的基础上生成一个压缩的偏序(Partial Order)的算法,实验结果显示该算法可以对频繁序列模式进行高效,高质量的压缩,可以得到数量更少、信息量更大的模式,从而提高发现的频繁访问序列的兴趣性。
- 程舒通徐从富但红卫
- 关键词:数据挖掘频繁序列模式偏序
- 增量式隐私保护数据挖掘研究被引量:5
- 2018年
- 描述了隐私保护数据挖掘技术研究进展。针对隐私保护关联规则挖掘算法EMASK计算效率较低,同时不适用于动态变化数据库等的问题,提出基于粒度计算的增量式隐私保护数据挖掘算法BIEMASK。该算法用粒度计算的思想对EMASK算法进行改进,利用增量式更新算法FUP解决增量式事务数据库频繁项集计算问题。在实现隐私保护的同时,减少了I/O操作的次数,降低空间开销,由此提高计算效率。结果证明,无论是固定增量集数据库还是可变增量集数据库处理中,BIEMASK相对于EMASK而言,效率时间都有较大幅度的提高。
- 程舒通徐从富但红卫
- 关键词:隐私保护知识粒度增量式