国家自然科学基金(60303030) 作品数:12 被引量:13 H指数:2 相关作者: 冯剑琳 冯玉才 王元珍 李曲 方琼 更多>> 相关机构: 华中科技大学 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 重庆市自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
前缀立方的索引 被引量:3 2005年 前缀立方是最近提出的一种新的数据立方结构。它利用前缀共享和基本单元组有效地缩小了数据立方的尺寸,相应减少了数据立方的计算时间。为提高前缀立方的查询性能,本文提出了它的一种索引机制Prefix-CuboidTree。文中用真实数据集和模拟数据集进行大量实验,证明了该索引机制的查询性能。 丁胡临 冯剑琳 聂晶关键词:浓缩数据立方 数据立方 索引机制 前缀 查询性能 元组 基于浓缩数据立方的内存实化小方的动态选择 被引量:2 2005年 OLAP通常使用预计算数据立方的方法提高可能的聚集查询的响应速度,在内存实化预计算的数据,可以更进一步加快响应的速度,但是受到内存空间的限制。在浓缩数据立方的环境中,动态地选择一定的数据小方在内存实化,加快响应速度,并更好地适应不同的查询模式。给出了在动态选择模型中,特定存储方式下的查询分解和响应算法。 王元珍 张晨静 李曲 冯剑琳关键词:浓缩数据立方 SAT-FOIL+:基于句子级关联的文本分类 被引量:1 2005年 以往基于词语关联的方法在挖掘频繁项集和关联规则时,都是将整个文本看作一个亨务来处理的,然而文本的基本语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,我们把一篇文档里的一个句子作为一个单独的事务,从而提出了一种基于句子级关联的分类方法SAT-FOIL。并在本文中提出新的得分模型来获得改进的新算法SAT-FOIL+。通过在标准的文本集Reuters上的大量实验,不仅证明新模型的优越性,而且证明了SAT-FOIL+分类效果同其他几种分类方法是可比的,并且要远远好于以往的基于文档级关联的分类方法。另外,挖掘出来的分类规则还具有易读性,并且易修改。 冯玉才 李曲 何玉 冯剑琳关键词:文本分类 频繁项目集 层次前缀立方的有效计算(英文) 2006年 在联机分析处理系统中,基于维层次的上卷、下钻操作十分常见,但前缀立方却不直接支持维层次。文中扩展了前缀立方的组织结构,加入了层次数据立方的概念,即有层次维的数据立方,从而得到了层次前缀立方。它不仅保留了前缀立方在计算和组织结构上的优点,又能直接和充分支持维层次级的聚集查询。 颜文跃 方琼 王元珍关键词:联机分析处理 聚簇 基于近似查询的在线分组聚集及其应用 被引量:2 2005年 通过分析在线聚集与在线动态重排序技术,结合近似查询处理和国会抽样方法,提出了在线分组聚集方案,该方案具有广泛的应用前景。 冯玉才 张鹏程一种新的前缀立方索引机制 被引量:1 2007年 前缀立方在浓缩数据立方的基础上利用前缀共享和基本单元组技术有效地缩小了数据立方的尺寸.由于前缀共享产生的分组结构,浓缩数据立方的索引CuboidTree并不适合前缀立方.所以,根据前缀立方包含分组结构的特性,结合BUB-Tree和R-Tree技术对CuboidTree进行改造,最终得到了一种新的索引机制Bound-CuboidTree.实验证明,这种索引机制比已有的前缀立方索引Prefix-CuboidTree更适合前缀立方的结构. 聂晶 冯剑琳 王元珍一种实化视图的合并算法 被引量:2 2005年 对于拥有大量实化视图的实际数据库应用系统,提出了视图合并的方法以减少整个视图 的数量,缩减实化视图的搜索空间;还提出了归并树和基于归并树的快速有效的合并算法。实验表 明,实化视图的合并是快速寻找可能响应查询的实化视图的一种有效途径,可以显著改进查询处理的 性能。 陈长清 程恳关键词:实化视图 PrefixCube计算的优化 被引量:5 2004年 基本单元组浓缩把那些由同一条基表元组聚集计算得到的立方元组浓缩成一条,从而减小数据立方的体积。共享前缀技术通过消除元组之间的前缀冗余来进一步压缩数据立方。PrefixCube就是将基本单元组的浓缩与共享前缀结合,而提出的一种有效的数据立方组织形式。在本文中,我们以批处理模式进一步优化计算PrefixCube,从而减少PrefixCube的计算时间代价。通过在模拟数据集和真实数据集上的实验证明,在大多数数据集上,以批处理模式计算PrefixCube要优于一般模式计算PrefixCube。 冯玉才 方琼 李曲 冯剑琳关键词:数据立方 元组 批处理 模拟数据 实数 Incrementally Exploiting Sentential Association for Email Classification 2006年 A novel association-based algorithm EmailInClass is proposed for incremental Email classification. In view of the fact that the basic semantic unit in an Email is actually a sentence, and the words within the same sentence are typically more semantically related than the words that just appear in the same Email, EmailInClass views a sentence rather than an Email as a transaction. Extensive experiments conducted on benchmark corpora Enron reveal that the effectiveness of EmailInClass is superior to the non-incremental alternatives such as NaiveBayes and SAT-MOD. In addition, the classification rules generated by EmailInClass are human readable and revisable. 李曲 何玉 冯剑琳 冯玉才关键词:电子邮件 系统设计 Spreadsheet计算引擎的设计 被引量:2 2005年 多维数据计算是联机分析处理(OLAP)应用经常使用的,但传统SQL却缺乏这方面的支持。本文讨论在DM_DW数据仓库原型系统中设计Spreadsheet计算引擎来解决这一问题,并且通过设计Spreadsheet子句扩展SQL的表达能力,更加有效地表示这种计算。 冯玉才 杨菲关键词:联机分析处理 多维数据