国家自然科学基金(60903043)
- 作品数:12 被引量:39H指数:4
- 相关作者:王怀民尹刚袁霖史殿习李翔更多>>
- 相关机构:国防科学技术大学解放军信息工程大学中国人民解放军国际关系学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术水利工程更多>>
- 基于在线属性聚合的海量软件层次分类
- 2013年
- 互联网规模的软件资源库正从根本上改变传统的软件开发模式,资源库中海量软件的高效层次分类对基于互联网资源的软件开发具有重要意义.传统软件分类方法基于软件源代码或字节码实现粗粒度的扁平分类,并且只在小规模数据集上进行了验证.文中提出了一种基于软件在线属性聚合的层次分类方法,设计了一个层次分类框架,基于跨资源库软件在线描述和标签的加权聚合,实现对海量软件的高效层次化分类.文中在超过18 000个开源软件上进行交叉验证,实验结果表明文中提出的在线属性加权聚合方法能显著提高软件分类效果.在粗粒度扁平分类下文中方法能够达到基于源代码/字节码分类近似的性能,而且,与相关工作比较,文中方法实现了涵盖123个更细粒度类别的层次化分类,能够更有效地对海量软件进行分类.
- 王涛王怀民尹刚李翔杨程邹鹏
- 关键词:开源软件
- 分布环境下的Gossip算法综述被引量:12
- 2010年
- Gossip算法简单、高效,同时具有很好的可扩展性和鲁棒性,很好地适应了无中心、大规模、高度动态的分布式网络环境。近些年在分布计算领域中涌现出了大量Gossip相关的研究成果。介绍了Gossip算法发展的历史;总结提出了Gossip算法的衡量标准和影响因素;对Gossip算法在分布环境下的应用进行了综述;最后指出Gossip算法研究存在的挑战。
- 刘德辉尹刚王怀民邹鹏
- 关键词:GOSSIP分布环境P2P
- Chord网络环境下的Gossip算法被引量:2
- 2011年
- 本文研究和分析Gossip算法在Chord网络中的适用性,并根据Chord网络的特点对基于Push&Pull模式的Gossip算法提出一种改进算法Mod-Gossip。实验表明,Push&Pull模式的Gossip算法可以很好地适应Chord网络,在Chord网络中将任意节点上的信息传播到整个网络中需要的周期数与在全连通网络中相当;本文所提出的Mod-Gossip算法则可以减少大约两个周期;在动态网络中,节点的加入不会对Push&Pull模式的Gossip算法以及Mod-Gossip算法的执行产生影响。
- 刘德辉尹刚王怀民邹鹏
- 关键词:GOSSIPCHORD周期
- 开源环境下开发人员行为特征挖掘与分析被引量:9
- 2010年
- 软件项目开发人员行为特征是软件工程领域所关注的重要问题之一,获取个体行为特征可用于评估项目发展的进度、认识项目的发展特征、发现制约项目发展的瓶颈以及发觉项目开发过程中的异常现象.文中基于Alitheia平台设计并实现了两个测度插件,并结合一些著名开源软件项目的版本控制系统SVN库中的相关数据,对参与项目的开发人员的多种贡献行为和协同行为进行度量和深入分析,发现了一些具有重要理论和实践价值的现象与结论,揭示了开源模式下开发人员的部分行为特征.
- 袁霖王怀民尹刚史殿习李翔
- 关键词:数据挖掘
- 开源软件自动化评估证据框架被引量:2
- 2013年
- 互联网上已形成了规模巨大、种类丰富的开源软件资源。如何准确、快速地判断一个开源项目的各种可信属性是否满足需求是当前软件工程领域研究的热点。深入分析已有开源软件评估模型,总结互联网上软件质量相关的各种信息,提出了面向开源软件的可信评估证据框架,并基于该框架构建了一种开源软件可信证据查询平台。利用该平台能够极大地提高评估效率,用户可以准确、快速、全面地了解相关软件项目的各种信息。最后,以一个知名开源软件证实了该证据框架及证据查询平台的可行性。
- 袁霖王怀民尹刚史殿习朱沿旭
- 关键词:开源软件数据挖掘
- 聚类搜索引擎研究进展浅析被引量:2
- 2011年
- 聚类搜索是目前互联网信息检索和数据挖掘领域的研究热点。给出了聚类搜索引擎的基本工作过程并据此概述其国内外技术发展现状,从聚类对象、聚类功能、聚类算法三个方面对现有聚类搜索引擎进行分析,从工作流程、聚类方法、应用现状等方面对两个典型聚类搜索系统进行了分析和评价,最后给出了聚类搜索引擎的发展趋势。
- 曹宇尹刚李翔程荣斌王怀民
- 关键词:聚类搜索聚类算法
- 一种面向软件仓库挖掘的动态作业配置框架
- 2011年
- 构造面向软件仓库挖掘的数据中心,是目前软件工程领域的研究热点。软件仓库数据处理作业的执行时间差异明显、资源消耗大等特点为其作业配置带来诸多挑战。提出一种面向软件仓库挖掘的作业配置框架TrustieS-DC,该框架支持一种新型远程作业部署和服务模式,采用一种基于软件版本划分的动态作业配置算法以缩短长作业响应时间并提高系统资源利用率。基于Gnome项目SVN库的实验表明,TrustieSDC的性能和资源利用率与并行后的Alitheia相比有明显改进。
- 史殿习尹刚米海波袁霖王怀民
- 关键词:数据中心
- 基于缩进轮廓的HTML文档重复模式挖掘方法
- 2011年
- HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。
- 朱沿旭王怀民史殿习尹刚袁霖李翔
- 关键词:WEB数据抽取WEB内容挖掘
- 基于角色的软件可信评估技术被引量:6
- 2010年
- 针对软件可信评估中可信证据的选择和使用问题,从项目参与角色构成的角度,通过对世界著名开源社区SourceForge中近1万个真实项目的研究,发现并证实了项目角色的配置与软件可信性之间确实存在巨大的相关性,为一部分软件可信属性的量化和自动化评估提供了重要依据和基础.
- 袁霖王怀民尹刚史殿习米海波
- 关键词:角色
- 面向互联网的开源软件自动化评估证据框架被引量:2
- 2011年
- 如何从海量的、公共可获取的互联网资源中快速定位和获取高质量、满足自身特定需求的开源软件资源是当前软件开发技术核心竞争力的一个重要体现.本文研究了互联网上开源软件各种可信证据的存在及分布形式,给出了相关数据的定位和自动化获取方法;提出了面向互联网的开源软件自动化评估证据框架,用于解决互联网数据到软件可信证据的映射问题;提出面向互联网上海量软件资源的开源软件可信证据查询平台实现方法,用于解决软件可信证据的自动化获取及使用问题;基于该系统能够极大的提高评估效率,使得用户准确、快速、全面的了解相关软件项目的各种信息.最后,通过两个典型的开源软件实例证实了上述证据框架和方法的可行性.
- 袁霖王怀民尹刚史殿习朱沿旭
- 关键词:开源软件