唐李洋 作品数:4 被引量:19 H指数:3 供职机构: 合肥工业大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 经济管理 更多>>
基于Cassandra的可扩展分布式反向索引的构建 被引量:11 2011年 随着云计算时代的到来,大型Web应用的不断发展,海量数据不断增加,集中式的数据检索已不再满足需求。如何在分布式的环境中高效地处理数据检索成为亟待解决的问题。传统的关系型数据存储也无法完全适应云环境,NoSQL(Not only SQL)作为一种云存储形式应运而生,其中Cassandra的应用较为广泛。以分布式的多节点架构的索引构建为背景,提出了建立在分布可扩展的数据存储Cassandra之上的分布式反向索引(DII,Distributed Inverted Index),并给出了数据模型和查询处理流程的分析,最后给出了Cassandra的性能测试。 唐李洋 倪志伟 李应关键词:分布式索引 数据流中随机型分形维数计算方法研究 2011年 分形维数能够有效地描述数据集,反映复杂数据集中隐含的规律性,基于分形理论的数据挖掘算法通常都涉及到分形维数的计算。但是现有的分形维数计算方法的时间复杂度和空间复杂度都比较高,大大降低了算法的效率,使算法很难适应高速、海量的数据流环境。因此,总结分析了现有的几种分形维数计算方法,并提出一种随机型方法,利用固定的内存空间快速估计数据流的关联维数。最后通过与现有算法进行对比实验,证明了这一随机型算法的有效性。 倪志伟 公维峰 周之强 唐李洋关键词:分形 分形维数 数据流 连续属性上的OLAP查询建模方法研究 被引量:3 2011年 本文以支持管理者决策为出发点,为OLAP查询建立统计模型。文章首次将数理统计学中的核密度估计方法及Copula理论相结合引入到OLAP查询建模的研究中,有效地抽取数据立方体的概要知识,在减少数据存储空间的同时,以近似查询的方法实现查询精度与查询时间之间的折衷。该方法的优势在于对连续属性的查询处理,模型的建立使得在连续属性上的查询降低了对物化方体的依赖性,极大地提高了OLAP查询的灵活性。实验分析表明使用该方法可以在保证较高查询精度的条件下大大减少数据立方体的存储空间,加快OLAP查询速度,从而为管理决策提供快速和高效的指导。 高雅卓 倪志伟 倪丽萍 唐李洋关键词:OLAP查询 数据立方体 核密度估计 COPULA 分布函数 基于社交媒体大数据的Twitter营销策略研究 伴随着云时代的来临,大数据正在从各个方面影响着人们的生活,从企业到消费者,从科学界到国家政府,无不正在拥抱大数据的潮流。作为大数据最重要的数据来源和应用领域之一,社交媒体(又称社会化媒体)正在展现出巨大的潜力。一方面,大... 唐李洋关键词:企业管理 社交媒体 营销策略 大数据