张舒博
- 作品数:15 被引量:46H指数:3
- 供职机构:中国电信股份有限公司北京研究院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术经济管理电子电信更多>>
- 采用联合熵矩阵的子空间聚类算法
- 2014年
- 为了解决现有子空间聚类算法时间复杂度偏高和对输入参数敏感的问题,提出了一种基于联合熵矩阵的子空间聚类算法.通过计算每个属性实例分布的熵降维,计算任意两个维度的联合熵,形成联合熵矩阵,在联合熵矩阵中搜索最高阶全1子矩阵作为兴趣子空间,最后在兴趣子空间完成聚类.在人工数据集和公开数据集上的实验表明,与传统子空间聚类算法相比,新算法能以较低的开销识别维度更高的兴趣度子空间.
- 牛琨张舒博赵方
- 关键词:子空间聚类联合熵
- 基于定位的数据聚类新算法被引量:2
- 2007年
- 针对现有聚类算法计算复杂度普遍较高的问题,提出了一种基于定位的方法。该算法采用空间定位的方法将数据对象映射到特征空间中,并利用空间立方体的某些特殊顶点定位任一数据点;通过计算数据点与空间立方体顶点群的距离差异,完成聚类过程。在电信数据集上的实验结果表明,算法的时间复杂度降至O(N)级别。
- 张舒博牛琨
- 关键词:数据挖掘聚类定位法
- 数据挖掘在通信行业品牌建设中的应用被引量:2
- 2005年
- 张舒博
- 关键词:数据挖掘通信行业聚类
- 一种基于复合近邻的聚类中心点初始化算法被引量:1
- 2006年
- 提出了一种有效选择初始聚类中心的算法CNICC.该算法参考了网格聚类算法的思路.划分数据空间为相应维度上的网格单元,然后根据实例的分布情况确定初始聚类中心.从二阶差分的概念出发,CNICC定义了网格单元的一阶邻居和二阶邻居,算法根据每个网格单元的一阶和二阶邻居的局部密度变化寻找包含聚类中心的网格单元.在人工数据集上进行的实验表明,与现有初始化聚类中心的方法相比,CNICC能够有效减少K-means算法的迭代次数,提升聚类精度.同时,随着数据集实例数、维度和网格单元数量的增加,算法的时间复杂度呈线性增加.
- 牛琨张舒博陈俊亮
- 关键词:聚类中心初始化K-MEANS
- 构建资费管理系统,决胜中国电信市场
- 本文介绍了资费管理系统的概念模型、逻辑设计与开发运行的流程方法,为通信运营商应对严峻的市场竞争提供了有力工具.
- 张舒博牛琨
- 关键词:电信市场逻辑设计
- 文献传递
- 一种基于复合近邻的聚类中心点初始化算法
- 提出了一种有效选择初始聚类中心的算法CNICC.该算法参考了网格聚类算法的思路.划分数据空间为相应维度上的网格单元,然后根据实例的分布情况确定初始聚类中心.从二阶差分的概念出发,CNICC定义了网格单元的一阶邻居和二阶邻...
- 牛琨张舒博陈俊亮
- 关键词:聚类中心初始化算法K-MEANS
- 文献传递
- 基于双半径密度差异的孤立点检测算法
- 2008年
- 针对现有基于密度的孤立点检测算法的不足,给出了一种新的基于密度的孤立点定义,并提出了相应的基于双半径(DR)密度差异的孤立点检测(OD)算法——DROD。该算法通过考察数据空间内任一点的双邻域半径与邻域半径内的数据密度的差异,有效地识别孤立点。DROD 算法摒弃了传统孤立点检测方法中的 k-近邻查询,大大节省了时间开销。在人工数据集和真实数据集上的实验表明,与现有孤立点检测算法相比,DROD算法在时间复杂度和孤立点的寻找能力方面均有较优表现。
- 牛琨张舒博陈俊亮
- 关键词:数据挖掘孤立点检测双半径
- 融合网格密度的聚类中心初始化方案被引量:20
- 2007年
- 提出了一种采用密度指针的聚类中心初始化方法——density pointer(DP)算法.DP算法以网格单元的几何中心为对称中心,连接该中心与网格单元各顶点,以此对称分割传统的类矩形网格单元,形成超三角形子空间;进而根据各个超三角形子空间与邻居单元相邻的超三角形子空间的密度差异确定密度指针的方向,并根据密度指针计算出每个密集网格单元的聚集因子;最后将具有较大局部聚集因子的网格单元族的重心作为初始聚类中心.在公开数据集和人工数据集上的实验结果表明,DP算法能快速高效地找到接近于真实聚类中心的数据点作为初始聚类中心.针对算法的效率实验表明,DP算法的时间开销与数据集实例数、维度以及网格单元数量均呈一阶线性关系.
- 牛琨张舒博陈俊亮
- 关键词:聚类中心初始化
- 采用属性聚类的高维子空间聚类算法被引量:13
- 2007年
- 为了解决现有子空间聚类算法时间复杂度偏高以及对输入参数敏感的问题,提出了一种基于属性聚类方法的高效子空间聚类算法.算法首先通过计算每个属性的基尼值来过滤冗余属性,而后通过基于二维联合基尼值的关系函数建立非冗余属性的关系矩阵,以衡量任意2个非冗余属性的相关度,进而在关系矩阵上应用可产生交叠的聚类算法,聚类结果即为所有兴趣度子空间的候选集合,最后调用聚类算法得到所有存在于这些子空间内的簇.在人工数据集和真实数据集上的实验表明,新算法不仅在时间复杂度和子空间簇的寻找能力方面均有较优表现,而且对输入参数的取值不甚敏感.
- 牛琨张舒博陈俊亮
- 关键词:子空间聚类高维数据属性聚类
- 基于数据挖掘技术的电信业客户流失管理框架被引量:1
- 2006年
- 本文首先阐述了客户资源的重要性,然后对客户流失这一当今运营商普遍遭遇的难题进行了分析。接着从理论上指出了过去客户保持手段的弊端,分析了防止客户流失的新思路和途径,并总结和归纳了电信业以客户流失管理为主题的数据挖掘项目的几个关键点。在此基础上,提出了基于数据挖掘的客户流失解决方案框架。
- 牛琨张舒博
- 关键词:客户流失数据挖掘管理策略