邹翔
- 作品数:11 被引量:117H指数:7
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 大型数据库中的高效序列模式增量式更新算法被引量:18
- 2003年
- 提出一种称为FIMS(fastincrementalminingofsequentialpatterns)的序列模式增量式更新算法,处理因数据库的更新而引起的序列模式的维护问题.主要思想是利用原先的序列模式挖掘结果,通过建立一个投影数据库来减少对整个数据库的扫描次数和候选序列的生成,从而提高挖掘的效率.实验结果显示在更新数据量远小于整个数据库的大小时,FIMS算法的性能优于GSP算法4~7倍.
- 邹翔张巍蔡庆生王清毅
- 关键词:数据库增量式更新算法数据挖掘
- 分类问题的一种可伸缩特征选择算法被引量:7
- 2005年
- 特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式———BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.
- 张巍邹翔吴晓如
- 关键词:数据挖掘
- 序列模式发现及其应用研究
- 数据挖掘是从数据库,数据仓库或其他信息库的大量数据中挖掘出有效知识的过程.它涉及多学科技术的集成,被信息产业界认为是人工智能与数据库系统最重要的前沿之一,是当前的热点研究领域.现实世界中的大量数据具有时间或顺序上的关联性...
- 邹翔
- 关键词:数据挖掘增量式更新分布式算法
- 文献传递
- 一种多策略联合信息抽取方法被引量:3
- 2005年
- 介绍了一种多策略联合信息抽取方法———MSCIE(MultiStrategyCombinationInformationExtraction).MSCIE将对表格式网页的信息抽取分为基于网页结构特征分析的信息抽取和基于模式匹配的信息抽取,提出了一种对网页DOM(DocumentObjectModel)树的冗余信息进行剪枝分析的方法和一种实体特征模式发现算法分别用于这两种信息抽取方法,并通过两种策略联合完成信息抽取工作.应用于互联网竞争情报监测系统中,从大量网站中抽取多种商品的供求信息,取得了较高的准确率和召回率(平均在95%以上).
- 肖明军张巍邹翔蔡庆生
- 关键词:信息抽取
- 电力调度数据挖掘后处理方法的研究被引量:7
- 2003年
- 关联规则是数据依赖关系的有效描述方法 ,是知识发现研究的重要内容 .然而 ,随着所挖掘数据库规模的增大 ,由传统数据挖掘算法所生成的大量关联规则常常令用户的使用与分析十分困难 .文中提出了一种新方法来解决这个问题并将其运用到电力调度数据挖掘系统中 .实验结果表明 ,该方法消除了大量冗余规则 ,并且使用户可以从整体上把握整个规则集 。
- 邹翔王清毅肖明军蔡庆生
- 关键词:知识发现数据挖掘关联规则
- 基于数据聚类的关联规则挖掘方法研究
- 该文讨论了以支持度和可信度作为兴趣度量标准的关联规则的不足,在引进了数据聚类的概念之后,给出了基于数据聚类的关联规则的定义,提出了基于数据聚类的关联规则的挖掘方法,并显示了作者的实验结果。
- 王清毅范焱邹翔蔡庆生
- 关键词:数据挖掘关联规则
- 文献传递
- 分布式环境下的序列模式发现研究被引量:4
- 2004年
- 提出一种称为DMSP(DistributedMiningofSequentialPatterns)的算法,以解决分布式环境下的序列模式挖掘问题.其主要思想是:利用前缀投影技术划分模式搜索空间,降低数据库的规模,生成局部序列模式;利用模式前缀指定选举站点降低通信开销;多线程异步运行,提高算法的并行性.实验结果显示:在具有海量数据的局域网环境中,DMSP算法的性能优于将数据集中后采用GSP算法65%以上.
- 邹翔张巍肖明军蔡庆生
- 关键词:序列模式挖掘分布式环境多线程海量数据并行性低通
- 分布式序列模式发现算法的研究被引量:30
- 2005年
- 提出算法FDMSP(fast distributed mining of sequential patterns),以解决分布式环境下的序列模式挖掘问题.首先对分布式环境下序列模式的性质进行了分析.算法采用前缀投影技术划分模式搜索空间,利用序列模式前缀指定选举站点统计序列的全局支持计数,利用局部约减、选举约减、计数约减等方法减少候选序列数,同时将算法分为3个子过程异步运行,使得算法具有较低的I/O开销、内存开销和通信开销,从而高效地生成全局序列模式.实验结果显示,在具有海量数据的局域网环境中,FDMSP算法的性能优于将数据集中后采用GSP算法68.5%~99.5%,并且FDMSP算法具有良好的可伸缩性.
- 邹翔张巍刘洋蔡庆生
- 关键词:数据挖掘分布式算法
- 部分数据缺失环境下的知识发现方法被引量:25
- 2001年
- 介绍了目前的不完全数据环境下的知识发现研究工作 ,分两个部分提出了一个不完全数据库中的知识发现方法 .首先具体讨论了如何猜测丢失的数据 ,给出了基于距离的关联规则的定义及挖掘方法 .然后在此基础上详细描述了一个不完全数据库中的知识发现算法 ,分析了算法的复杂度 ,并给出了相应的实验结果 .最后 。
- 王清毅蔡智邹翔蔡庆生
- 关键词:知识发现聚类关联规则数据库
- 聚类算法在范例库维护中的应用研究被引量:18
- 2005年
- 详细介绍了将传统的聚类算法应用于基于范例推理系统中,并为范例库维护提供了一条有效的途径。实验表明,在范例库的维护中,聚类方法是一种行之有效的方法。
- 耿焕同肖明军邹翔蔡庆生
- 关键词:CBR聚类