公共文化服务平台

前缀立方的索引被引量：3: 2005年; 前缀立方是最近提出的一种新的数据立方结构。它利用前缀共享和基本单元组有效地缩小了数据立方的尺寸,相应减少了数据立方的计算时间。为提高前缀立方的查询性能,本文提出了它的一种索引机制Prefix-CuboidTree。文中用真实数据集和模拟数据集进行大量实验,证明了该索引机制的查询性能。; 丁胡临冯剑琳聂晶; 关键词：浓缩数据立方数据立方索引机制前缀查询性能元组

基于浓缩数据立方的内存实化小方的动态选择被引量：2: 2005年; OLAP通常使用预计算数据立方的方法提高可能的聚集查询的响应速度,在内存实化预计算的数据,可以更进一步加快响应的速度,但是受到内存空间的限制。在浓缩数据立方的环境中,动态地选择一定的数据小方在内存实化,加快响应速度,并更好地适应不同的查询模式。给出了在动态选择模型中,特定存储方式下的查询分解和响应算法。; 王元珍张晨静李曲冯剑琳; 关键词：浓缩数据立方

SAT-FOIL+:基于句子级关联的文本分类被引量：1: 2005年; 以往基于词语关联的方法在挖掘频繁项集和关联规则时,都是将整个文本看作一个亨务来处理的,然而文本的基本语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,我们把一篇文档里的一个句子作为一个单独的事务,从而提出了一种基于句子级关联的分类方法SAT-FOIL。并在本文中提出新的得分模型来获得改进的新算法SAT-FOIL+。通过在标准的文本集Reuters上的大量实验,不仅证明新模型的优越性,而且证明了SAT-FOIL+分类效果同其他几种分类方法是可比的,并且要远远好于以往的基于文档级关联的分类方法。另外,挖掘出来的分类规则还具有易读性,并且易修改。; 冯玉才李曲何玉冯剑琳; 关键词：文本分类频繁项目集

层次前缀立方的有效计算(英文): 2006年; 在联机分析处理系统中,基于维层次的上卷、下钻操作十分常见,但前缀立方却不直接支持维层次。文中扩展了前缀立方的组织结构,加入了层次数据立方的概念,即有层次维的数据立方,从而得到了层次前缀立方。它不仅保留了前缀立方在计算和组织结构上的优点,又能直接和充分支持维层次级的聚集查询。; 颜文跃方琼王元珍; 关键词：联机分析处理聚簇

基于近似查询的在线分组聚集及其应用被引量：2: 2005年; 通过分析在线聚集与在线动态重排序技术,结合近似查询处理和国会抽样方法,提出了在线分组聚集方案,该方案具有广泛的应用前景。; 冯玉才张鹏程

一种新的前缀立方索引机制被引量：1: 2007年; 前缀立方在浓缩数据立方的基础上利用前缀共享和基本单元组技术有效地缩小了数据立方的尺寸.由于前缀共享产生的分组结构,浓缩数据立方的索引CuboidTree并不适合前缀立方.所以,根据前缀立方包含分组结构的特性,结合BUB-Tree和R-Tree技术对CuboidTree进行改造,最终得到了一种新的索引机制Bound-CuboidTree.实验证明,这种索引机制比已有的前缀立方索引Prefix-CuboidTree更适合前缀立方的结构.; 聂晶冯剑琳王元珍

一种实化视图的合并算法被引量：2: 2005年; 对于拥有大量实化视图的实际数据库应用系统,提出了视图合并的方法以减少整个视图的数量,缩减实化视图的搜索空间;还提出了归并树和基于归并树的快速有效的合并算法。实验表明,实化视图的合并是快速寻找可能响应查询的实化视图的一种有效途径,可以显著改进查询处理的性能。; 陈长清程恳; 关键词：实化视图

PrefixCube计算的优化被引量：5: 2004年; 基本单元组浓缩把那些由同一条基表元组聚集计算得到的立方元组浓缩成一条,从而减小数据立方的体积。共享前缀技术通过消除元组之间的前缀冗余来进一步压缩数据立方。PrefixCube就是将基本单元组的浓缩与共享前缀结合,而提出的一种有效的数据立方组织形式。在本文中,我们以批处理模式进一步优化计算PrefixCube,从而减少PrefixCube的计算时间代价。通过在模拟数据集和真实数据集上的实验证明,在大多数数据集上,以批处理模式计算PrefixCube要优于一般模式计算PrefixCube。; 冯玉才方琼李曲冯剑琳; 关键词：数据立方元组批处理模拟数据实数

Incrementally Exploiting Sentential Association for Email Classification: 2006年; A novel association-based algorithm EmailInClass is proposed for incremental Email classification. In view of the fact that the basic semantic unit in an Email is actually a sentence, and the words within the same sentence are typically more semantically related than the words that just appear in the same Email, EmailInClass views a sentence rather than an Email as a transaction. Extensive experiments conducted on benchmark corpora Enron reveal that the effectiveness of EmailInClass is superior to the non-incremental alternatives such as NaiveBayes and SAT-MOD. In addition, the classification rules generated by EmailInClass are human readable and revisable.; 李曲何玉冯剑琳冯玉才; 关键词：电子邮件系统设计

Spreadsheet计算引擎的设计被引量：2: 2005年; 多维数据计算是联机分析处理(OLAP)应用经常使用的,但传统SQL却缺乏这方面的支持。本文讨论在DM_DW数据仓库原型系统中设计Spreadsheet计算引擎来解决这一问题,并且通过设计Spreadsheet子句扩展SQL的表达能力,更加有效地表示这种计算。; 冯玉才杨菲; 关键词：联机分析处理多维数据

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60303030)