国家自然科学基金(60673089)
- 作品数:19 被引量:93H指数:6
- 相关作者:王志海王中锋黄厚宽朱卫东赵爽更多>>
- 相关机构:北京交通大学河北理工大学石河子大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划北京市科技计划项目更多>>
- 相关领域:自动化与计算机技术理学一般工业技术更多>>
- 一种基于平行坐标度量模型的聚类算法及其应用被引量:6
- 2009年
- 本文说明了数据挖掘中可视化技术应用的特点与方法,给出了数据挖掘中可视对象与参数的确定及算法分解的方法,并给出基于平行坐标技术的聚类算法的可视化方法与平行坐标的度量模型,以及在K-means算法上的应用方法.结果表明这种方法对于数据及聚类算法K-means的数据挖掘过程的可视化表示是有效的.
- 胡俊黄厚宽高芳
- 关键词:数据挖掘可视化聚类平行坐标法
- 一种局部打分搜索型限制性贝叶斯网络结构学习算法被引量:5
- 2009年
- 贝叶斯网络是用概率方法解决分类问题的有效工具,但学习贝叶斯网络是一个non-deterministic polynomial-time(NP)难题.以往的限制性学习算法大都假设网络结构中的结点具有基本相同的父结点数目,这往往与现实不相符的.为了学习更符合实际数据分布的限制性网络结构,进一步提高分类器的性能,本文对网络中每一个结点单独限制其父结点的数目,各个结点间是否存在父子关系是由它们之间的依赖强度所决定的.本文采用条件互信息方法度量依赖关系,这是因为条件互信息方法不但能够度量网络中各个结点之间的依赖关系,而且能够从整体上对网络结构性能进行打分.条件互信息的分解属性可以将这两者联系起来,通过对每一个结点局部限制的策略,可实现整体网络结构优化.基于这些思想,本文提出了一种学习限制性贝叶斯网络结构的局部打分搜索算法,通过此算法在20个加州大学欧文分校(University of California,IV Vine,UCI)的标准数据挖掘数据集合上与BDeu打分算法,基于最小描述长度的打分算法(minimum description length,MDL)打分算法,基于条件互信息的打分算法(conditional mutual information,CMI)打分算法和tree augmented naive bayes(TAN)算法等的比较,充分表明了本文所提出的策略具有较低的平均误分类率.
- 王中锋王志海付彬
- 差分进化算法在多目标路径规划中的应用被引量:6
- 2010年
- 针对差分进化算法其算法思想简明、实现方便而得到了国际进化计算研究领域的认可,多目标问题中,由于各目标之间经常是相互制约的,因此优化难度相当大。带时间窗的多目标物流配送车辆路径优化的多约束性使得它很难应用进化算法进行优化。为了解决这个问题,本文通过变异操作算子改进,成功将改进的差分进化算法应用于该问题。数值仿真实验结果表明:这种改进的差分进化算法得到了较稳定的非支配解集,实现了客户间的路径优化。
- 裴振奎刘真赵艳丽
- 关键词:差分进化算法路径规划多目标优化
- 一种基于平行坐标的度量模型及其应用被引量:4
- 2011年
- 分析了数据挖掘中可视化技术应用的特点与方法,给出了数据挖掘中可视对象与参数的确定及算法分解的方法,提出了一种基于平行坐标技术的度量指标体系,证明了其中的相关性质与结论,并给出基于平行坐标技术的度量模型以及在实验数据上的应用例.结果表明这种方法对于数据挖掘中的数据可视化表示是有效的.基于度量指标的可视化技术在对可视对象的分析处理上可以借助适用的数学方法建模与评测,这有助于数据挖掘可视化的研究与应用.
- 胡俊黄厚宽高芳
- 关键词:数据挖掘可视化平行坐标法
- 向量空间模型中特征加权的研究被引量:8
- 2008年
- 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF.IDF方法对特征加权。但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。针对TF.IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF.GINI。实验结果显示,这种加权方法具有很好的分类性能。
- 林永民吕震宇赵爽朱卫东
- 关键词:文本分类基尼指数特征加权向量空间模型
- 利用增益率构建混合型选择性不完整数据分类器被引量:2
- 2009年
- 鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工作基础上利用信息增益率构建了一种用于不完整数据的混合型的选择性贝叶斯分类器:GBSD.在12个标准的不完整数据集上的实验结果表明,GBSD不仅能大幅度减少属性数目,而且比已有工作更能有效改善分类准确率和效率.
- 陈景年黄厚宽徐力伊传环
- 关键词:信息增益率贝叶斯方法不完整数据
- 基于同义词词林的文本特征选择与加权研究被引量:12
- 2008年
- 特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征。实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度。
- 吕震宇林永民赵爽朱卫东
- 关键词:文本分类特征加权同义词词林
- Boosting算法中基分类器权重的动态赋值被引量:9
- 2009年
- Boosting是一种有效的分类器组合方法,其通过加权投票来组合多个基分类器进行分类。在对基分类器进行权重赋值时,该算法采用了以基分类器在当前训练集上的错误率的某种变形来对基分类器进行权重赋值,这是一种静态的赋值方法。介绍一种动态地对基分类器进行赋权重的方法,这种方法利用当前测试实例属于某个被错误分类数据子集的程度,并按照程度的大小给相应的基分类器赋适当的权重。跟静态赋权重相比,这种方法考虑了测试实例属性取值的不同,进而能动态地调整基分类器的权重,从而达到进一步优化分类性能的目的。实验表明,动态权重赋值的方法在大多数情况下跟静态赋值相比具有更好的分类性能。
- 付彬王志海王中锋
- 关键词:组合分类器BOOSTING方法
- 一种基于假设检验的贝叶斯分类器被引量:3
- 2008年
- 分类是数据挖掘领域的重要分支,而贝叶斯分类方法作为分类领域的重要技术得到了日益广泛的研究和应用。限制性贝叶斯网络在不牺牲太多精确性的前提下简化网络结构,是近几年分类领域的研究热点。论文采用统计学中理论较成熟的体积假设检验(Volume Testing)方法寻找属性间的依赖关系,同时结合假设检验的思想和朴素贝叶斯分类算法的优点构造限制性贝叶斯网络,提出了一种基于假设检验的贝叶斯分类算法,并命名为基于体积检验的贝叶斯分类算法。在Weka系统下进行的实验,结果表明,这种方法效果优于朴素贝叶斯方法、TAN算法等,尤其对大数据集有更佳的表现效果。
- 李锦善王志海王中锋
- 关键词:贝叶斯分类器
- 文本特征加权方法TF·IDF的分析与改进被引量:14
- 2008年
- TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。
- 林永民吕震宇赵爽朱卫东
- 关键词:文本分类特征加权向量空间模型