董一鸿 作品数:82 被引量:231 H指数:8 供职机构: 宁波大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 浙江省自然科学基金 宁波市自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 医药卫生 更多>>
一种垃圾网页识别方法 本发明涉及一种垃圾网页识别方法,从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,统计训练集中每个训练网页对应的有向图三角的数目,将得到的有向图三角特征与网页中包含的链接特征、链接组合... 董一鸿 金宏桥 李龙洋LGP-SA:分布式环境下基于模拟退火的大规模图划分算法 被引量:1 2016年 针对大规模图数据的分布式计算,首先需要进行图划分。当前大规模图划分方法采用顶点转移策略来减少分区间的边割数以降低通信开销,但容易陷入局部最优,引入模拟退火的方法进行顶点转移后,极大地避免了局部最优的陷阱,也极大地防止了顶点无效转移,更好地降低了通信开销。对比实验显示,本算法划分大规模图的边割率有了极大的改进,并用PageRank算法验证了算法的有效性和可行性。 许金凤 董一鸿 王诗懿 何贤芒 陈华辉关键词:图划分 模拟退火 BSP 基于基窗口的多维数据流相关性分析算法 被引量:3 2012年 多维数据流相关性分析的研究较少,且主要集中在单一滑动窗口分析.文中提出一种基于基窗口的在线典型相关分析算法(Base_win_CCA).算法动态维护基窗口的统计量用于多维相关性分析,时空复杂度大为减少,并且可根据多用户并发请求获取多个窗口范围的相关性,较灵活,运算结果精确.理论分析和实验结果表明算法在基窗口越大,相关性查询窗口越大,数据流条数越多,查询用户越多的情况下能体现出优越的性能. 钱江波 王志杰 陈华辉 董一鸿 谢志军 王永利关键词:多维数据流 统计量 新型冠状病毒肺炎的疫情趋势预测 被引量:12 2020年 2019年12月以来,湖北省武汉市部分医院陆续发现了多例不明原因肺炎病例,现已证实为新型冠状病毒肺炎(Coronavirus disease 2019,COVID-19)。全国各地采取了前所未有的措施,大力开展疾病救治和防疫工作。本文收集中国国家卫生健康委员会公布的官方统计数据预测疫情走向。传统SEIR模型中仅考虑病例和处于潜伏期的感染者,病例具有传染性而潜伏者无传染性;事实上,新冠肺炎确诊患者在医院中隔离无法对外界易感人群造成感染,有研究表明处于潜伏期的感染者可能具有传染性。因此,本研究提出了改进的传染病传播模型—ISEIR,将患者分为未收治的发病患者(具有传染性)和已收治的确诊患者(不考虑传染性),并考虑处于潜伏期的感染者具有传染性;以历史数据动态拟合模型参数,来摆脱固定参数的局限性。在数据预处理中根据每日有效再生数的概率分布将2020年2月12至14日这三天的临床诊断数据进行预处理,摊入到前期数据中。疫情分成全国(湖北省外)和湖北省两大区域分别进行探讨,通过新模型ISEIR预测今后疫情的进一步发展,并计算每日的有效再生数变化。结果显示,湖北省的有效再生数从3.108逐渐降低,2020年4月19日所有患者将全部治愈出院,累计确诊患者为66487人;全国(湖北省外)的初始有效再生数为1.929,小于湖北省,2020年3月26日所有患者全部治愈,累计确诊患者13270人。从结果中可以发现,在严格的防控措施下疫情得到了有效抑制,验证了目前防控措施的有效性,但仍需要防止复工潮引起的疫情反弹。 颜铭江 董一鸿 贾香恩 郑海阳 辛宇关键词:再生数 疫情预测 大规模图数据划分算法综述 被引量:7 2014年 对大规模图数据划分算法进行了总结,介绍了并行环境下图计算模型,详述了大规模静态图划分算法和动态图划分算法,归纳了这些算法的优缺点以及适应性。最后,指出了关于大图划分尚未探索的有意义的研究课题。 许金凤 董一鸿 王诗懿 何贤芒 陈华辉关键词:负载均衡 BSP MAPREDUCE 动态图 大规模复杂网络下重叠社区的识别 被引量:3 2015年 随着网络规模的不断扩大,经典的复杂网络重叠社识别算法已不能高效处理现有的大规模网络图数据.本文在GraphLab并行计算模型上提出了基于重要节点扩展的重叠社区识别算法DOCVN(Detecting the Overlapping Community algorithm based on Vital Node Expanding in GraphLab).算法选取网络中PageRank值大的节点作为重要节点,计算其他节点归属于重要节点的节点归属度,并以重要节点为中心形成核心社区及扩展社区,最后根据重要节点间的连接紧密度合并核心社区及扩展社区,并计算出每个节点在所属社区里的节点重要度,实现了大规模网络的重叠社区识别.实验表明该算法与PD(Propinquity Dynamics)等现有并行算法相比更能有效地识别大规模网络的重叠社区结构. 王诗懿 董一鸿 李志超 陈华辉 钱江波关键词:社会网络 位置不确定移动对象的连续概率反Skyline查询 被引量:1 2013年 反Skyline查询现在已经被广泛用于商业规划、环境监测及其它领域。当前的研究多集中在目标对象静止条件下的反Skyline计算。对移动环境下的目标对象不断运动变化并且位置不确定情况下的连续概率反Skyline计算进行了研究。在对移动对象间反支配关系进行细致分析的基础上,定义了反支配概率和反Skyline概率以及导致反Skyline集变化的process,提出了一种基于过程事件的算法来处理位置不确定移动对象的连续概率反Skyline查询算法,以通过计算、跟踪、更新这些process来快速找出p-RSky集合,并提出两个剪枝规则进行优化,避免了大量的无效计算。大量的实验证实了该算法的有效性。 汤志俊 樊明锁 何贤芒 陈华辉 董一鸿关键词:不确定数据 基于事件的位置不确定移动对象连续概率Skyline查询 被引量:9 2011年 Skyline查询是基于位置服务(Location based service,LBS)的一项重要操作,其目的是发现数据集中不被其他点支配的点的集合.移动对象在运动过程中,其位置信息具有不确定性,导致各数据点间的支配关系不稳定,从而影响Skyline操作.本文针对以位置不确定移动对象为查询点的Skyline查询进行研究,首先,定义了查询点移动时各对象间支配概率,提出了支配概率和Skyline概率的微元计算方法.在此基础上,提出一种面向不确定移动对象进行连续概率Skyline查询的有效算法UCPSC.该算法首先快速计算初始时刻的p-Skyline集合;然后,定义了两类可能引起p-Skyline变动的事件,通过对这些事件的跟踪计算快速更新p-Skyline集合,无需在移动对象的每一运动时刻去遍历整个数据集,实现了对p-Skyline的连续更新操作,大大减少了算法的查找和计算开销,提高了运算效率;最后,提出一种静态算法USPSC,与UCPSC进行了对比试验,实验结果证明了算法的有效性. 付世昌 董一鸿 唐燕琳 陈华辉 钱江波关键词:不确定数据 SLSB-forest:高维数据的近似k近邻查询 被引量:2 2017年 近似k近邻查询的研究一直受到广泛关注,局部敏感散列(LSH)是解决此问题的主流方法之一。LSH及目前大部分改进版本都会面临以下问题:数据散列以后在桶里分布不均匀;无法准确计算对应参数k的查询范围建立索引。基于此,将支持动态数据索引的LSH和B-tree结合,构建新的SLSB-forest索引结构,使散列桶里的数据维持在一个合理的区间。针对SLSB-forest提出了两种查询算法:快速查找和准确率优先查找,并通过理论和实验证明查找过程中查询范围的动态变化。 钱途 钱江波 董一鸿 陈华辉关键词:高维数据 基于学习型哈希的在线近邻查找算法 被引量:4 2019年 基于哈希的近邻查找技术在图像检索、文本匹配、数据挖掘等信息检索领域均有广泛应用.该技术将原始数据通过哈希函数压缩成低维的二进制编码,然后在海明距离下排序检索,具有快速高效且维度不敏感的优势.但是,目前学术界针对流数据的实时在线哈希学习方法的研究很少,而且基本没有讨论哈希函数的更新频率和稳定性问题.针对这一问题,通过增加置信区间来减少更换哈希函数的频率,并构造在线学习的目标函数,使得算法尽可能保持稳定,且快速收敛.为了验证所提出算法的效率和有效性,在公开数据集上与同类的OSH、OKH在线哈希算法进行比较,比较结果表明,所提出的算法在平均准确率和训练时间上有一定优势. 钱江波 胡伟 陈华辉 董一鸿关键词:高维数据 数据流 信息检索