辽宁省自然科学基金(20052006)
- 作品数:12 被引量:38H指数:4
- 相关作者:孙焕良刘俊岭朱叶丽牛志成王大玲更多>>
- 相关机构:沈阳建筑大学东北大学辽宁公安司法管理干部学院更多>>
- 发文基金:辽宁省自然科学基金辽宁省教育厅攻关计划项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 基于双层网格索引的移动对象KNN查询算法
- 2006年
- 移动对象KNN查询技术是当前数据库领域中的一个研究热点.实际的移动对象的应用多数存在由对象速度变化引起的动态负载问题,而现有KNN查询算法较少考虑该问题.提出了一种基于双层网格索引的移动对象KNN查询算法.算法采用粗细双层网格将不同速度的移动对象分开索引,对于速度快的对象在粗网格中索引,速度慢的在细网格中索引,减少了索引的更新次数,提高了KNN查询的效率.针对真实数据集实验结果表明,基于双层网格索引结构的移动对象KNN查询算法与以往采用单层网格的算法相比,能有效地解决动态负载问题.
- 宋晓宇孙业挺孙焕良
- 关键词:KNN
- 基于双层网格索引的移动对象KNN查询算法
- 移动对象KNN查询技术是当前数据库领域中的一个研究热点.实际的移动对象的应用多数存在由对象速度变化引起的动态负载问题,而现有KNN查询算法较少考虑该问题.提出了一种基于双层网格索引的移动对象KNN查询算法.算法采用粗细双...
- 宋晓宇孙业挺孙焕良
- 关键词:KNN
- 文献传递
- 一种优化的基于网格的聚类算法被引量:9
- 2006年
- 聚类是数据挖掘领域中一个重要的研究课题.与其它算法相比,基于网格的聚类算法可以高效处理低维的海量数据.然而,由于划分的单元数与数据的维数呈指数增长,因此对于维数较高的数据集,生成的单元数过多,导致算法的效率较低.本文基于CD-Tree设计了新的基于网格的聚类算法,该算法的效率远高于传统的基于网格聚类算法的效率.此外,本文设计了一种剪枝优化策略,以提高算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法在数据集的大小及维度的可伸缩性方面均有显著提高.
- 刘俊岭孙焕良王大玲牛志成
- 关键词:数据挖掘聚类分析
- 一种发现多层次密度的聚类算法被引量:5
- 2006年
- 目的提出一种可以发现不同密度层次分布的聚类算法,解决多层次不同密度数据集的聚类问题.方法采用对数据对象的k-邻居距离进行排序,利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,获得了多密度级别的类.结果使用真实数据集与人工数据集测试结果表明,此算法可以发现现有算法所不能发现的模式.结论算法在时间效率上与DB-SCAN相同,空间效率上随着输入数据的数目增加而线性增长,同时此算法可适用于高维数据集.
- 孙焕良毕占举刘俊岭周祥国许景科
- 关键词:数据挖掘聚类DBSCAN
- 一种基于CD-Tree的高效聚类算法
- 基于网格的聚类算法可以高效处理低维的海量数据.然而,对于维数较高的数据集,生成的单元数过多导致算法的效率较低.CD-Tree是一种只保存非空单元的索引结构,基于CD-Tree设计了新的基于网格的聚类算法,利用CD-Tre...
- 孙焕良刘俊岭于戈鲍玉斌王大玲
- 关键词:数据挖掘聚类分析
- 文献传递
- 一种基于CD-Tree的高效聚类算法
- 2006年
- 基于网格的聚类算法可以高效处理低维的海量数据.然而,对于维数较高的数据集,生成的单元数过多导致算法的效率较低.CD-Tree是一种只保存非空单元的索引结构,基于CD-Tree设计了新的基于网格的聚类算法,利用CD-Tree的优点提高了传统的基于网格的聚类算法的效率.此外,该算法聚类时只需访问稠密单元,设计了优化策略,在聚类之前剪枝掉非稠密单元,进一步提高了算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法有更好的可伸缩性.
- 孙焕良刘俊岭于戈鲍玉斌王大玲
- 关键词:数据挖掘聚类分析
- 一种新的基于密度的聚类与孤立点检测算法被引量:4
- 2006年
- 目的提出一种聚类分析的新算法,解决聚类和同时检测孤立点的问题.方法结合SNN算法和LOF算法给出新算法-SNN LOF算法原理:(1)建立相似度矩阵;(2)去除噪声;(3)密度;(4)标记核心点;(5)计算每个数据点的lrd值;(6)由核心对象出发来形成一个聚;(7)取出被作为噪声的数据点;(8)计算被定义为噪声数据的LOF值,输出被视为孤立点的数据点.编制算法程序实现聚类和孤立点检测.结果用CURE数据集,DBSCAN聚类算法和SNN聚类算法结果相同,时间消耗是很接近的.但当数据上升到10 000以上时,SNN LOF算法聚类的效率明显要高于DB-SCAN算法,同时也检测到了孤立点.结论SNN LOF算法可以在聚类的同时发现孤立点.在大数据量时,SNN LOF算法的聚类时间效率明显要高于DBSCAN算法.
- 刘大任孙焕良牛志成朱叶丽
- 关键词:聚类孤立点
- IncSNN——一种基于密度的增量聚类算法
- 基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的...
- 孙焕良邱菲刘俊岭朱叶丽
- 关键词:聚类分析增量聚类算法
- 文献传递
- 基于网格索引的Top-k偏好查询算法被引量:1
- 2009年
- 目的设计基于网格索引的Top-k偏好查询算法,提高Top-k偏好查询问题的解决效率.方法利用网格索引,采用概念划分的方法,实现基于范围查询和NN查询两种方式的Top-k偏好查询算法.结果通过真实数据集测试结果表明算法能够结合网格索引的优点,与基于R树索引的传统算法相比,在k值不断增加的情况下,查询效率提高了50%,能适应多种空间特征数据对象集合.结论网格索引可以有效处理Top-k偏好查询.
- 孙焕良姜超孙丽梅廖廷悟
- 关键词:数据挖掘网格索引
- 中文版面分析和重构被引量:2
- 2008年
- 目的在将纸张文档数字化的过程中,解决中文文档版面信息的自动提取与恢复问题.方法通过搜索连通域,并根据连通域的尺寸特征,优先提取非文本区域,对提取出来的非文本区域,根据投影直方图、宽高比和黑白像素比等特征区分出表格、直线和图像;对文本区域采用改进的基于投影的纵横切割法来达到对文本正确分割的目的;利用XML文档文件格式描述、组织、恢复原有版面的数据和样式.通过重构生成保持原版面格式的通用电子文档,达到"原文重现"的目的.结果对大量的书籍样张和带表格、图像以及横竖混排等复杂样张的试验,结果表明改进的版面分析方法分割准确,速度快;基于XML技术的重构方法实现了对文档版面较精确的重构.结论采用统计特征得出的阈值参数用在了改进的版面分析方法中,提高了系统的适应性.该方法对较规范的文档效果较好,对复杂版面在一定的人工干预下基本可以适用.
- 钟辉孙士兰刘倩
- 关键词:版面分析版面理解XML