张洋
- 作品数:23 被引量:46H指数:3
- 供职机构:中国科学院信息工程研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术理学文化科学电子电信更多>>
- 一种最小距离字符串计算查找方法
- 本发明公开了一种最小距离字符串计算查找方法。本方法为:1)判断判断字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,得到加速索引;2)从该字符串集合中找到与待计算字符串t最相似的字符串t’...
- 柳厅文张洋亚静李全刚时金桥郭莉
- 基于域名的恶意行为检测技术被引量:1
- 2016年
- 文章首先对域名恶意行为进行简述;然后从域名恶意行为生成机制、相似性、跳变性和互通性四个维度介绍现有的基于域名的恶意行为安全检测技术;之后从DNS流量检测系统和基于DNS数据挖据技术两个维度介绍现有的检测系统;最后展望了恶意域名检测的发展方向。
- 吕品柳厅文张洋亚静时金桥
- LFF:一种面向大数据应用的众核处理器访存公平性调度机制被引量:2
- 2017年
- 研究了众核处理器的访存公平性问题。针对众核处理器距离访存资源较近的处理单元拥有较大的访存带宽而造成的访存公平性问题,提出了一种面向大数据应用的众核处理器访存公平性调度机制:最少最远(LFF)优先访存。这种机制的原理如下:依据处理单元距离访存资源的距离以及处理单元访存的次数来调度访存顺序,以保证各个处理单元的公平性。首先,访问次数较少的节点被赋予更高的访存优先权。其次,在具有相同访问次数的节点中,距离更远的节点优先访存。再次,在相同距离的节点中,已被选中优先次数少的有优先级。实验评估表明,该调度机制能够有效解决众核处理器的访存公平性问题,其公平性调度效果优于FR-FCFS,PAR-BS、ATLAS。在1024核情况下,系统异步率由FR-FCFS的15.5%降低到1.89%。
- 张洋李文明叶笑春王达范东睿李宏亮唐志敏孙凝晖
- 关键词:大数据调度
- 一种基于视觉的字符串相似度计算方法及相似性判断方法
- 本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维...
- 柳厅文张洋亚静李全刚时金桥郭莉
- 一种面向新闻标题的人物关系抽取方法
- 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正...
- 柳厅文亚静张浩亮时金桥赵佳鹏闫旸李全刚张洋
- 基于多元属性特征的恶意域名检测被引量:22
- 2016年
- 域名系统主要提供域名解析功能,完成域名到IP的转换,而恶意域名检测主要用来发现以域名系统为屏障的非法行为,来保障域名服务器的正常运行。总结了恶意域名检测的相关工作,并采用基于机器学习的方法,提出一种基于多元属性特征的恶意域名检测方法。在域名词法特征方面,提取更加细粒度的特征,比如数字字母的转换频率、连续字母的最大长度等;在网络属性特征方面,更加关注名称服务器,比如其个数、分散度等。实验结果表明,该方法的准确率、召回率、F1值均达到了99.8%,具有较好的检测效果。
- 张洋柳厅文沙泓州时金桥
- 关键词:域名系统网络钓鱼
- 面向文本标题的人物关系抽取被引量:3
- 2016年
- 为了克服文本标题的人物关系抽取中非人物实体的干扰、关系特征词的选取以及标题中多人物实体对目标实体的关系判定的影响,提出基于决策树的人物实体判别、基于最小集合覆盖的关系特征词生成以及基于三层句式规则统计方法。首先,针对中国机器学习会议(CCML)竞赛中人物关系属性文件中对人物的描述,提取18种特征,采用C4.5分类器,获得了98.2%的查全率和92.6%的查准率,其结果作为下一步人物关系判定的条件;其次,为了保证特征词集合的规模维持在合适的水平,采用了基于最小集合覆盖的特征词覆盖的算法,结果表明,随着特征词集合达到一定的规模,特征词集合完成对所有类别关系的集合覆盖,用以判定文本标题中人物关系类型;最后,采用三层句式规则统计方法,用以生成过滤掉比重较小的句子规则和根据关系正负比例判定的进一步细分句式规则,以判定文本标题关系与否。实验结果表明,在19种人物关系判定上取得82.9%的查全率、74.4%的查准率以及78.4%的F1测度。所提方法可以有效用于新闻标题人物关系提取,用以构建人物关系知识图谱。
- 闫旸赵佳鹏李全刚张洋柳厅文时金桥
- 关键词:句法规则
- BDSim:面向大数据应用的组件化高可配并行模拟框架被引量:5
- 2015年
- 大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,该文提出了面向大数据应用的并行模拟框架——BDSim.该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系.为了提高组件之间的通信和同步效率,该文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法.模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,该算法与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上.
- 李文明叶笑春张洋宋风龙王达唐士斌范东睿谢向辉
- 关键词:并行离散事件模拟大数据
- 一种基于自学习规则的项目名实体识别方法及系统
- 本发明公开了一种基于自学习规则的项目名实体识别方法及系统,以词性黑名单和关键词白名单作为规则,并且词性黑名单和关键词白名单的构造完全无需人的参与,可以从训练集中自动学习出来。本发明可以作为传统识别方法的补充,进而可以在原...
- 柳厅文时金桥张洋闫旸郭莉张浩亮亚静
- 文献传递
- 面向高通量计算机的图算法优化技术被引量:10
- 2020年
- 随着互联网技术的蓬勃发展,图数据的规模呈爆炸式增长.如何高效地处理大规模图数据逐渐成为工业界和学术界关注的焦点.宽度优先搜索算法是解决图遍历问题的经典算法,也是Graph500基准的核心测试程序之一.高通量计算机采用ARM架构的众核体系结构,具有高并发、强实时、低功耗等适于大数据计算的特点.在单节点上,BFS算法的优化已取得一系列进展,首先对现有的优化技术进行系统的介绍,并在此基础上提出2种面向高通量计算机的优化手段,通过减少冗余访存和提高缓存局部性,有效提高了算法的访存效率.通过这些优化手段,在高通量计算机上对BFS算法的性能进行了系统的评估.对于顶点规模为230的Kronecker图(顶点数为230,边数为234),优化后的BFS算法在高通量计算机上的平均性能为24.26 GTEPS.与两路x86架构服务器相比,单节点具有1.18倍的性能优势.在性能功耗比方面,高通量计算机的结果为181.04 MTEPS W.在2019年6月份的Green Graph500面向大数据集的排行榜上取得第2名的成绩.综上,高通量计算机的高并发和低功耗等特点非常适合处理大规模图计算等数据密集型应用.
- 张承龙曹华伟王国波郝沁汾张洋叶笑春范东睿
- 关键词:宽度优先搜索高通量图算法