刘峥
- 作品数:10 被引量:27H指数:3
- 供职机构:南京邮电大学计算机学院更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于路径选择的层次多标签分类被引量:2
- 2018年
- 多标签分类为每一个实例分配多个标签,当这些标签存在一种预定义的层次化结构时,该机器学习任务称为层次多标签分类(HMC)。传统的分类问题(二分类和多标签分类)往往会忽略各标签之间的结构关系,而层次多标签分类充分考虑标签集之间的层次结构关系,并以此来提高分类的效果。层次多标签分类是输出结构化预测结果的分类任务,其中类标签被组织成某种预定义(树形或者有向无环图)的结构,并且一个实例可以属于多个类。在HMC中有基于全局标签集的分类方法和基于单个标签的局部分类方法。全局方法将整个问题作为一个整体来处理,但往往会随着数据集的增长而出现性能瓶颈,而局部方法将问题分解为基于单个标签的二分类方法,但未充分考虑层次结构信息,并且无法处理预测节点终止于层次标签树内节点的分类问题。在分类阶段,修剪掉概率较低的分支,达到预测标签不一定到达叶子节点的目的。基于路径选择的层次多标签分类充分考虑修剪后的层次标签树从根节点出发的所有可能路径,结合各节点的预测概率值和节点所在的层次来选出得分最高的标签路径。该方法和现有的层次多标签分类方法在三种不同的数据集上进行实验对比,结果表明该方法在处理层次较深且叶子节点稠密的层次结构时获得了较好的结果。
- 张春焰李涛刘峥
- 关键词:文本分类剪枝
- 应用驱动的大数据挖掘被引量:2
- 2016年
- 认为大数据挖掘的核心和本质是应用、数据、算法和平台4个要素的紧密结合。从大数据的特点出发,结合大数据挖掘的案例,提出大数据挖掘中的平台架构、数据获取和预处理、算法的选择和集成都是应用驱动的。强调大数据挖掘的目标来自实际应用的真实需求,只有结合具体应用数据和适合应用的算法,利用高效处理平台的支撑,并将挖掘到的模式或知识应用在实践中,才能体现大数据挖掘的真正价值。
- 李涛刘峥周绮凤
- 关键词:大数据数据挖掘高端制造业
- 基于邻域选择策略的图卷积网络模型被引量:6
- 2019年
- 邻域的组成对于基于空间域的图卷积网络(GCN)模型有至关重要的作用。针对模型中节点邻域排序未考虑结构影响力的问题,提出了一种新的邻域选择策略,从而得到改进的GCN模型。首先,为每个节点收集结构重要的邻域并进行层级选择得到核心邻域;然后,将节点及其核心邻域的特征组成有序的矩阵形式;最后,送入深度卷积神经网络(CNN)进行半监督学习。节点分类任务的实验结果表明,该模型在Cora、Citeseer和Pubmed引文网络数据集中的节点分类准确性均优于基于经典图嵌入的节点分类模型以及四种先进的GCN模型。作为一种基于空间域的GCN,该模型能有效运用于大规模网络的学习任务。
- 陈可佳杨泽宇刘峥刘峥
- 关键词:图嵌入半监督学习
- 网络基础设施中重要网元子图的确定被引量:1
- 2018年
- 网元子图是指大规模网络基础设施中包含承载具体业务网元的拓扑子图,网元子图可用于网络基础设施运维中的故障排查、诊断与修复.首先定义重要网元的概念;其次,为确定重要网元子图,提出一个统一框架来度量网元在结构和业务两方面的影响力,将其作为重要网元的衡量标准,并设计了从重要网元扩展生成重要网元子图的高效算法.基于真实的网络基础设施数据以及合成的业务承载数据进行实验,实验结果验证了该方法可以高效地找到高质量的重要网元子图,并用于网络基础设施的运维,提高运维的效率,节省运维的成本.
- 刘峥郭舒婷周绮凤周绮凤
- 结合主题词嵌入和注意力机制的主题模型被引量:1
- 2020年
- 社交软件的普及使得从海量数字文本中挖掘有效信息成为一个热点问题,经典主题模型LDA和LSA均基于单词共现来捕获主题信息,忽略了单词间的位置信息。为此,设计主题与单词间的注意力机制并将主题信息和单词信息融入到LDA框架中,构建一种主题模型JEA-LDA。该模型通过单词与主题间的注意力机制将单词信息和主题信息融合为特征表示,用于LDA模型的主题提取。实验结果表明,相比LDA、DMM等模型,该模型的主题一致性和分类性能均较高,能够取得更好的主题提取效果。
- 覃婷婷刘峥陈可佳
- 关键词:主题模型LDA模型
- 基于指标相关性的网络运维质量评估模型被引量:4
- 2018年
- 传统网络运维评估方法存在两方面的问题:一是在指标选取、权重指定等关键步骤过于依赖领域专家经验,难以得到精确全面的评估结果;二是通信设备用户数量不断增加带来了海量的数据,数据又来自多个厂家以及多种设备,传统方法处理此类海量异构数据的效率较低。为了解决这些问题,提出基于指标间互相关性的指标选取方法。该方法着眼于评估过程中指标选取步骤,通过比较指标数据序列间的相关性强弱,对原始指标集进行分类,在各个簇中选择代表性指标完成关键指标体系的构建;另外,结合无人工参与的数据处理方法、权重确定方法建立了网络运维质量评估模型。在实验中,所提方法选取的指标对人工指标的覆盖率为72.2%,并且比人工指标的信息重叠率少31%。所提方法能够有效减少人力参与,且评估结果对告警有较好的预测准确率。
- 吴沐阳刘峥王洋李云李涛
- 关键词:网络运维服务质量
- 结合语义和结构的短文本相似度计算被引量:4
- 2018年
- 短文本相似度不仅包括语义相似度,还包括语法相似度。目前在短文本相似度度量算法中,大多只分析短文本语义层次的相似性,往往忽略了短文本的语法结构对短文本相似度的重要影响,导致无法捕获大量的文本语义信息,同时在短文本分类任务中召回率不够理想。通过分析短文本的特征,将EMD(earth mover’s distance)求解线性规划中运输问题的最优解应用于度量两个短文本的相似度,用Word2Vec度量两个单词的语义相似性,提出了词序位置相似度的概念,即在计算短文本相似度的同时考虑语句词组顺序对相似度的贡献。实验结果表明,在捕获大量文本语义信息的基础上,将算法应用于k近邻(k-nearest neighbor,KNN)文本分类中,有较好的准确率和召回率。
- 倪高伟李涛刘峥
- 关键词:EMD语义相似度
- 云工作流中基于多任务时序卷积网络的异常检测方法被引量:3
- 2021年
- 云计算数据中心在日常部署和运行过程中产生的大量日志可以帮助系统运维人员进行异常分析。路径异常和时延异常是云工作流中常见的异常。针对传统的异常检测方法分别对两种异常检测任务训练相应的学习模型,而忽略了两种异常检测任务之间的关联性,导致异常检测准确率下降的问题,提出了一种基于多任务时序卷积网络的日志异常检测方法。首先,基于日志流的事件模板,生成事件序列和时间序列;然后,训练基于多任务时序卷积网络的深度学习模型,该模型通过共享时序卷积网络中的浅层部分来从系统正常执行的流程中并行地学习事件和时间特征;最后,对云计算工作流中的异常进行分析,并设计了相关异常检测逻辑。在Open Stack数据集上的实验结果表明,与日志异常检测的领先算法Deep Log和基于主成分分析(PCA)的方法比较,所提方法的异常检测准确率至少提升了7.7个百分点。
- 姚杰程春玲韩静刘峥
- 关键词:日志分析多任务学习
- 数据挖掘等进阶课程在本科高年级的教学方法被引量:3
- 2017年
- 在本科高年级学生中开设符合学术研究和工业应用热点的进阶课程是十分必要的。以数据挖掘课程为例,本科高年级学生了解并掌握数据挖掘的相关技术,对于其今后的工作、学习不无裨益。着重阐述数据挖掘等进阶课程在本科高年级学生中的教学方法,基于本科高年级学生的实际情况,以及进阶课程的知识体系特点,提出有针对性的教学方法参考,从而提高进阶课程的教学效果。
- 刘峥王俊昌
- 关键词:数据挖掘教学方法研究
- 基于时滞特征的时序依赖情节发现被引量:1
- 2019年
- 对于事件序列中的时序依赖发现,传统的频繁情节发现方法一方面使用时间窗口机制挖掘事件之间简单的关联依赖,另一方面无法有效处理事件的交叉时序关联。针对以上问题,提出了时滞情节发现的概念,在频繁情节发现的基础上,设计了一种基于相邻事件匹配集(AEM)的时滞情节发现算法。首先,引入时滞的概率统计模型进行事件序列匹配,避免预先设定时间窗口,处理可能存在的交叉关联;然后,将时滞挖掘转化为最优化问题,使用迭代的方式得到时滞情节之间的时间间隔分布;最后,利用假设检验区分串行时滞情节和并行时滞情节。理论分析与实验结果表明,与目前最新的时滞挖掘方法迭代最近事件(ICE)算法相比,基于AEM的时滞情节发现算法模拟的时滞分布与真实时滞分布的平均KL距离为0. 056,缩短了20. 68%。基于AEM的时滞情节发现算法通过时滞的概率统计模型衡量事件多种匹配情况的可能性,获得一对多的相邻事件匹配集,比ICE算法中的一对一匹配更加有效地模拟了实际情况。
- 顾佩月刘峥刘峥李云
- 关键词:频繁情节时滞