国家自然科学基金(60873176)
- 作品数:14 被引量:265H指数:6
- 相关作者:杨明尹军梅万建武高茜叶云龙更多>>
- 相关机构:南京师范大学江苏省信息安全保密技术工程研究中心解放军理工大学更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 不平衡数据分类方法综述被引量:30
- 2008年
- 分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望.
- 杨明尹军梅吉根林
- 关键词:不平衡数据过抽样子空间
- Ad Hoc网络中多约束的QoS路由协议和性能分析被引量:1
- 2010年
- 多媒体应用的发展使得在Ad Hoc网络中提供服务质量(QoS)保证具有重要的意义。提出了一种基于AODV协议的多约束QoS路由协议(MQAR),扩展了QoS路由表项,允许中间节点发起路由回复(RREP)和资源预留,并且采用局部路由修复机制。仿真实验表明,MQAR协议在保持较高的报文传输率的情况下,有效地减少了路径建立时间和修复时间,大大降低了路由开销。
- 高茜
- 关键词:ADHOC网络路由协议
- 一种面向不平衡数据集的核Fisher线性判别分析方法被引量:7
- 2010年
- 实际应用中,很多分类问题是面向不平衡数据的分类,而不平衡数据集会导致许多分类器的性能下降.文中介绍核Fisher线性判别分析的分类机制,分析不平衡数据导致核Fisher线性判别分析失效的原因,进而提出一种加权核Fisher线性判别分析方法.该方法通过调整两类样本的核协方差矩阵对核类内离散度矩阵的贡献,可克服不平衡数据对分类性能的影响.为进一步测试该方法,对UCI数据集进行实验测试,实验结果表明该方法可有效改进分类器的分类性能.
- 尹军梅杨明万建武
- 关键词:不平衡数据集过抽样
- 泛在媒体环境下的网络舆情传播控制模型被引量:124
- 2011年
- 正逐步形成的泛在媒体环境深刻影响着网络舆情的传播与控制.将传统的传染病模型推广到泛在媒体环境这样一个开放系统中,建立了新的带直接免疫的SEIR舆情传播控制模型,新模型克服了已有网络舆情传播模型存在的对网民个体状态处理过于简单,对舆情传播媒介的处理过于简化等缺陷.证明了模型的传播平衡点及稳定性,提出了从网络舆情传播环境入手,在舆情形成初期进行干预的控制方法.据此,构建了基于Wiki技术的网络舆情传播控制平台,对该平台的舆情传播控制效能做了仿真剖析,验证了控制方法的有效性.
- 陈波于泠刘君亭褚为民
- 关键词:网络舆情传染病模型WIKI
- 代价敏感的半监督Laplacian支持向量机被引量:14
- 2012年
- 代价敏感学习是机器学习领域的一个研究热点.在实际应用中,数据集往往是不平衡的,存在着大量的无标签样本,只有少量的有标签样本,并且存在噪声.虽然针对该情况的代价敏感学习方法的研究已取得了一定的进展,但还需要进一步的深入研究.为此,本文提出了一种基于代价敏感的半监督Laplacian支持向量机.该模型在采用无标签扩展策略的基础上,将考虑了数据不平衡的错分代价融入到Laplacian支持向量机的经验损失和Laplacian正则化项中.考虑到噪声样本对决策平面的影响,本文定义了一种样本依赖的代价,对噪声样本赋予较低的权重.在7个UCI数据集和8个NASA软件数据集上的实验结果表明了本文算法的有效性.
- 万建武杨明陈银娟
- 关键词:代价敏感学习半监督学习
- 一种基于一致性准则的属性约简算法被引量:24
- 2010年
- 粗糙集方法提供了一种新的处理不精确、不完全与不相容知识的数学工具.属性约简是粗糙集理论的重要研究内容之一,已有的大多数属性约简算法主要针对离散值属性的约简,面向连续值属性的约简报道较少.为此,在引入新的对象一致性定义后,提出一种新的基于一致性准则的属性约简模型,该模型可针对离散或连续值属性进行有效的约简,是经典粗糙集属性约简模型的有效推广.依据新模型,提出了一种基于一致性准则的属性约简算法,该算法可有效进行连续值属性的约简,且通过错分对象数的控制可有效增强属性约简的有效性.理论分析和实验表明提出的算法是有效可行的.
- 杨明
- 关键词:粗糙集属性约简
- 一种面向不平衡数据的结构化SVM集成算法被引量:5
- 2010年
- 不平衡数据在实际应用中广泛存在,如何处理不平衡数据成为目前一个新的研究热点.鉴于最大间隔思想在很多分类问题中的优越性,将最大间隔思想引入到非平衡分类问题中,使用SVM的方法取得了很好的分类性能.本文在利用类间分布信息的同时,加上类内结构信息,使用结构化的SVM作为基分类器,进行分类集成.实验表明该方法可对不平衡数据进行有效的分类.
- 袁兴梅杨明
- 关键词:不平衡数据支持向量机
- 数据挖掘取样方法研究被引量:54
- 2011年
- 取样是一种通用有效的近似技术.在数据挖掘研究中,取样方法可显著减小所处理数据集的规模,使得众多数据挖掘算法得以应用到大规模数据集以及数据流数据上.通过对应用于数据挖掘领域的代表性取样方法的比较研究和分析总结,提出了一个取样算法分类框架.在指出了均匀取样局限性的基础上阐述了某些应用场景中选用偏倚取样方法的必要性,综述了取样技术在数据挖掘领域的应用研究与应用发展,最后对数据流挖掘取样方法面临的挑战和发展方向进行了展望.
- 胡文瑜孙志挥吴英杰
- 关键词:数据挖掘数据流概要数据结构
- 一种基于多模态模型的随机子空间分类集成算法
- 2009年
- 分类是当前机器学习的重要研究内容之一,已取得了一定的进展.现有的文本分类方法大多基于VSM模型,而VSM未能有效地利用隐含在文本中的结构信息.同时,VSM下的样本空间常常是高维的,单一的降维策略可能会丢失有用信息.为改进现有算法的不足,提出了一种基于多模态模型的随机子空间分类集成算法MMRFSEn,有效地利用文本中的结构信息(单词分布位置的均值和标准差),且各基分类器是由随机选择的子空间构建而成.实验结果表明,该方法是有效可行的.
- 叶云龙杨明
- 关键词:多模态随机子空间分类器集成
- 基于成对约束降维的MicroRNA预测
- 2010年
- MicroRNA是一类内源、单链非编码小RNA,在生物体内发挥着重要的调控作用.对microRNA的预测有助于研究和理解它们的生物学功能.目前,针对成对约束的microRNA预测方法还报道不多.为此,本文提出了一个基于成对约束的降维算法,该算法并入数据局部结构保持策略,以此有效改进microRNA的预测性能.在mi-croRNA数据集和UCI数据集上的实验结果表明,新提出的基于成对约束的降维方法是有效可行的.
- 魏爽杨明