国家教育部博士点基金(20130004130001)
- 作品数:19 被引量:666H指数:11
- 相关作者:孟小峰张啸剑王璐马友忠慈祥更多>>
- 相关机构:中国人民大学河南财经政法大学洛阳师范学院更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于差分隐私的流式直方图发布方法被引量:21
- 2016年
- 基于差分隐私保护模型,已经存在多种静态数据集上的直方图发布方法,而目前着重考虑数据流环境下的直方图发布方法却很少.由于数据流本身潜在的复杂性,直接利用现有的满足差分隐私的直方图发布方法处理数据流存在着很多不足,例如发布直方图的可用性低、发布误差大等.基于此,提出了一种基于滑动窗分割的流式直方图发布方法 SHP(streaming histogram publication).该方法通过连续分割每个滑动窗中的桶计数,使其构成不同的分组.根据不同的范围计数查询敏感性,提出了3种拉普拉斯噪音添加机制以实现差分隐私保护,分别是滑动窗机制、时间点机制以及自适应抽样机制.在自适应抽样机制中,SHP算法基于当前的滑动窗,依赖于一种自适应抽样方法对下一时刻的计数进行预测,若预测值与真实值的差异小于给定的阈值则发布预测值,否则发布噪音值.该抽样方法可以有效地节省整体的隐私预算.在真实数据集上对SHP算法的可用性进行度量,结果显示,基于抽样的SHP算法的可用性高于另外两种方式.
- 张啸剑孟小峰
- 关键词:数据流
- 基于数据源分类可信性的真值发现方法研究被引量:8
- 2015年
- 网络的普及和电子商务的发展改变了人们信息获取以及消费的方式.Web已经成为大多数人获取信息的重要来源.与此同时,互联网信息质量问题也逐渐凸显.Web中存在大量过时、错误、虚假、片面的信息.其中,不同网站为相同对象提供冲突信息的问题尤为突出.如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题又被称为真值发现问题.通过对现有真值发现问题解决方法的调研,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响.因此,提出基于数据源分类可信性的真值发现问题.提出2种方法探测数据源分类可信性差异,并采用贝叶斯的方法迭代计算数据源分类可信性和属性值准确性.另外,通过考虑数据源覆盖率和对象难度对真值发现的影响,进一步提高真值发现算法的准确性.一个真实数据集的实验结果表明,所提方法可以显著提高真值发现的准确性.
- 马如霞孟小峰
- 关键词:数据冲突信息质量数据融合
- 差分隐私保护下一种精确挖掘top-k频繁模式方法被引量:29
- 2014年
- 频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-kpattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性.
- 张啸剑王淼孟小峰
- 关键词:频繁模式挖掘
- 大数据隐私管理被引量:93
- 2015年
- 信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点,是IT业正在发生的深刻技术变革.但它在提高经济和社会效益的同时,也为个人和团体的隐私保护以及数据安全带来极大风险与挑战.当前,隐私成为大数据应用领域亟待突破的重要问题,其紧迫性已不容忽视.描述了大数据的分类、隐私特征与隐私类别,分析了大数据管理中存在的隐私风险和隐私管理关键技术;提出大数据隐私主动式管理建议框架以及该框架下关于隐私管理技术的主要研究内容,并指出相应的技术挑战.
- 孟小峰张啸剑
- 关键词:大数据隐私泄露
- 海量高维向量的并行Top-k连接查询被引量:10
- 2015年
- 在很多应用领域中,向量的Top-k连接查询是一种很重要的操作,给定两个向量集合R和S,Top-k连接查询要求从R和S中返回距离最小的前k个向量对.由于数据的海量性和高维特性,传统的集中式算法已经无法在可接受的时间内完成连接查询任务.MapReduce作为一个并行处理框架,能够有效地处理大规模数据.由于其高可扩展性、高可用性等特点,MapReduce已经成为海量数据处理的首选实现方案,在很多领域都得到了广泛的应用.文中基于分段累积近似法对高维向量进行降维,然后利用符号累积近似法对高维向量进行分组;在此基础上,结合MapReduce框架,提出了基于SAX的并行Top-k连接查询算法.实验表明,文中所提方案具有良好的性能和扩展性.
- 马友忠慈祥孟小峰
- 关键词:MAPREDUCE框架大数据
- 面向数据发布和分析的差分隐私保护被引量:138
- 2014年
- 随着数据分析和发布等应用需求的出现和发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战.基于k-匿名或者划分的隐私保护方法,只适应特定背景知识下的攻击而存在严重的局限性.差分隐私作为一种新出现的隐私保护框架,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护.文中对差分隐私保护领域已有的研究成果进行了总结,对该技术的基本原理和特征进行了阐述,重点介绍了当前该领域的研究热点:差分隐私下基于直方图的发布技术、基于划分的发布技术以及回归分析技术.在对已有技术深入对比分析的基础上,指出了差分隐私保护技术的未来发展方向.
- 张啸剑孟小峰
- 关键词:数据发布隐私保护数据分析
- 大规模图数据可达性索引技术:现状与展望被引量:16
- 2015年
- 随着社交网络、生物信息网、本体等新兴领域的飞速发展,在现实应用中涌现出大量的图数据.可达性查询是有向图上一类最基本的查询.当图的规模非常小时,利用深度优先遍历(depth-first search,DFS)或可达性传递闭包可以很容易处理可达性查询.但是,随着图的规模越变越大,由于DFS方法的查询效率太低而可达性传递闭包方法占用的存储空间太大,这2种方法不再适用.因此,许多可达性索引方法相继被提出.这些方法已经被广泛应用于多个计算机科学领域,如软件工程、编程语言、分布式计算、社交网络分析、生物网络分析、XML和RDF数据库、路由规划等领域.此外,可达性索引还可用于加速其他图算法,如最短路径查询和子图模式匹配.首先介绍了可达性索引的应用背景.接着,依据支持的数据规模、数据类型以及查询类别,将现有可达性索引工作进行了分类,并对代表性工作进行分类比较;最后,讨论了现有的大规模图数据可达性索引方法存在的问题,并指出了未来的研究方向.
- 富丽贞孟小峰
- 关键词:可达性索引查询处理
- MTruths:Web信息多真值发现方法被引量:9
- 2016年
- Web已成为一个浩瀚的信息海洋,其信息分散在不同的数据源中.不同数据源常常为同一对象实体提供冲突的属性值.如何从这些冲突属性值中找到真值被称为真值发现问题.根据属性值数量可将对象属性分为单值属性和多值属性,现有的多数真值发现算法对单值属性的真值发现比较有效.针对多值属性的真值发现问题,提出了一个多真值发现方法 MTruths,该方法将多真值发现问题转化为一个最优化问题,其目标是:各对象的真值与各数据源提供的观察值之间的相似性加权和达到最大.对象真值求解过程中,提出2种方法求真值列表的最优解:基于枚举的方法和贪心算法.与已有方法不同的是MTruths可以直接得到对象的多个真值.最后,通过图书和电影2个真实数据集上的实验表明,MTruths的2种实现方法的准确性以及贪心算法的效率优于现有真值发现方法.
- 马如霞孟小峰王璐史英杰
- 关键词:数据冲突多值属性
- DegreeTree:学者谱系构建系统被引量:1
- 2015年
- Web数据的不断丰富,使构建学者的社会网络成为可能,但是国内目前鲜有系统挖掘学者的师生关系.DegreeTree系统借助Deep Web数据集成技术从互联网上自动集成计算机领域的学位论文,进行数据清洗、实体识别、实体关系抽取和实体链接,由数据源模块、语义构建模块、查询处理模块、数据展示模块组成.由于学者的单位信息可能发生改变,匹配同一学者不同时期的导师、学生身份至关重要,该系统用学位论文的年份、授予单位、关键词、分类号等属性完成这一实体链接过程.用户使用DegreeTree系统可以查询以学者为中心的谱系图,并编辑修改错误或缺失信息.
- 郝泽慧孟小峰
- 关键词:数据集成社会网络
- 一种云环境下的大数据Top-K查询方法被引量:17
- 2014年
- Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点,从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行深入研究.实验结果表明,该方法具有良好的性能和扩展性.
- 慈祥马友忠孟小峰
- 关键词:TOP-K查询云计算MAPREDUCE