汤春蕾
- 作品数:10 被引量:28H指数:2
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:上海市教育委员会重点学科基金国家高技术研究发展计划上海市科学技术委员会资助项目更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于LSH的时间子序列查询算法被引量:6
- 2012年
- 子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极大提高相似性查询的效率;在此基础上,给出一种DS-Index索引结构,利用距离下界进行剪枝,进而还提出了两种优化的OLSH-Range和OLSH-kNN算法.实验是在真实的股票序列集上进行的,数据结果表明算法能快速精确地找出相似性查询结果.
- 汤春蕾董家麒
- 关键词:相似性查询时间序列数据库子序列索引
- 一种优化多重过滤的序列查询算法被引量:2
- 2010年
- 序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.
- 戴东波汤春蕾邱伯仁熊赟朱扬勇
- 关键词:序列数据相似性查询过滤器度量空间
- 基于多AGENT的税务咨询系统研究
- 随着税务信息化的发展,仅将其停留在税务系统内部是狭隘的。税务机关应充分利用近十年信息化所积累的数据对纳税人提供从税收政策到具体涉税事项的全方位、深层次的税务咨询,促进各类中介体将执业项目向智能的税收筹划转换,从而完善我国...
- 汤春蕾
- 关键词:多AGENT税务咨询搜索技术数据挖掘
- 文献传递
- 基于整体和局部相似性的序列聚类算法被引量:20
- 2010年
- 现有的很多序列聚类算法是基于"局部特征可以表征整个序列"的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.
- 戴东波汤春蕾熊赟
- 关键词:序列数据聚类
- 一种时序组合模式挖掘算法
- 2013年
- 序列模式挖掘是发现特征的重要方法之一。目前运用于时间序列模式的方法有两类,一种是基于相对时间的离散化模式查询,另一种是基于连续时间的原始时间模式查找。结合目前两种主流算法,提出了频繁同类异构模式算法和频繁异类组合模式算法,并使用图挖掘算法和聚类算法执行快速收敛。实验结果表明,提出的算法运行效率高,同时能够找到扩展性更强,适用性更广的频繁时间序列模式。
- 董家麒汤春蕾鲁轶奇
- 关键词:时间序列数据挖掘
- 一种基于增长模式的交易序列聚类算法被引量:1
- 2013年
- 对交易序列进行各种挖掘分析能为商家制定营销策略提供量化依据.文中从销售量及变化趋势角度研究交易序列数据集的内在结构,定义了一种反映价格变化趋势的增长模式及其错位组合距离和角度向量距离两种相似性度量,在此基础上设计一个考虑时限约束的目标函数进行聚类研究.实验数据采用真实的商品交易序列集,结果表明,在时限约束的条件下,增长模式这种特征提取方式及其模式间的两种距离函数能较好地产生聚类结果,且这些聚类结果能得到较好地解释.
- 汤春蕾董家麒朱博雅戴东波
- 关键词:聚类
- 交易序列数据挖掘研究
- 交易序列数据描述的是在各类交易过程中商品或证券价格随时间的变化规律,分析这些数据能为商家或投资者制定营销策略或选择价值投资方法提供量化依据,由此交易序列数据挖掘技术成为当前研究和应用的热点。
交易序列数据挖掘的目的...
- 汤春蕾
- 关键词:序列数据股票交易
- 文献传递
- 化危为机被引量:1
- 2002年
- <正>中国的民营企业发端于上个世纪70年 代末80年代初,经过20余年的发展,涌现出一批较为出色的企业,但从总体来说,成功的企业很少。据相关调查研究,内地的民营企业平均存活寿命约5年7个月。特别是自90年代中期以来,一批名声显赫的民营企业纷纷落马。究其原因,重要的一条就是缺乏对企业发生危机的预防和发生危机后的有效应对策略。在加入WTO的今天,中国的民营企业面临着跨国公司的竞争,因此深入了解民营企业危机管理的因应之道,就显得愈加重要和迫切。 民营企业对危机 管理失败的教训 民营企业在其发展的过程中,存在着一些极其相似的弊端,如经营业务盲目多元化,经营战略严重失误,内部管理特别是财务管理较为混乱以及过分注重营销、
- 汤春蕾文静
- 关键词:民营企业危机管理WTO财务管理体系
- 一种序列模式的相似性查询算法
- 2011年
- 数值型序列在很多应用中存在,如超市的POS销售记录和证券交易所的股票买卖数据等.在此类数据中查询与给定序列模式相似的子模式具有重要的现实意义.提出一种趋势融合的序列相似性查询算法NSS_QA,首先对所有序列进行单调区间的"融合"处理,然后根据各区间的长度比例和幅度比例产生序列模式的候选集,最后定义了一种新的相似性度量来计算并返回查询结果.该查询算法能找到与给定序列模式"放大"或"缩小"的模式结果.实验结果表明,提出的算法能找到在总体形状上与给定序列模式相似的所有模式,且在时间上具有较好的伸缩性能.
- 汤春蕾董家麒戴东波朱扬勇
- 关键词:相似性查询
- 基于LSH的时间子序列查询算法
- 子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询。现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下。文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前...
- TANG Chun-Lei汤春蕾DONG Jia-Qi董家麒
- 关键词:时间序列数据库相似性查询索引结构计算方法
- 文献传递