王乐
- 作品数:19 被引量:26H指数:4
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家高技术研究发展计划国防科技技术预先研究基金国家部委预研基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于频繁词集和k-Means的Web文本聚类混合算法被引量:6
- 2008年
- 当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。
- 王乐田李贾焰韩伟红
- 关键词:文本挖掘聚类K-MEANS
- 一个并行的文本聚类混合算法
- 2007年
- 针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类.
- 王乐田李贾焰韩伟红
- 关键词:聚类K-MEANS
- 一种面向海量数据的多维数据划分查询优化方法
- 逐渐出现的大规模(TB甚至PB级)的数据库系统中,其庞大的数据规模,往往造成查询性能低下。针对这一现状,介绍了一种面向海量数据的多维度数据划分的查询优化方法,该方法将存放在一个表中的大规模数据通过多个维度进行数据划分,改...
- 侯潇袁志坚王乐韩伟红贾焰
- 关键词:海量数据查询优化数据库处理
- 基于BCBF+HSet布卢姆过滤器的数据流计数
- 突发检测是数据流的固有问题之一,因其应用广泛而备受研究者关注.突发检测中的一个基本问题是如何保存数据流中所有元素的频数.提出了一个基于改良的计数型布卢姆过滤器BCBF+HSet保存所有元素频数的解决方案.与直观的数组存储...
- 袁志坚缪嘉嘉贾焰王乐
- 关键词:数据流
- 文献传递
- 扩展向量空间上的短语消息聚类
- 基于互联网或移动网的即时通信成为一种广泛应用的大众通信方式.对即时短语消息内容进行聚类可以分析短语消息的内容特征,从而跟踪或发现当前的热门话题,预防或审计犯罪活动,也可以协助建立其他数据挖掘应用.针对短语消息内容短、关键...
- 王乐田李贾焰韩伟红
- 关键词:聚类向量空间模型数据挖掘
- 文献传递
- 短语消息聚类相关技术研究
- 随着互联网和通信技术的发展,Instant Messaging、Internet Relay Chat等即时通信工具得到广泛普及和应用。这些即时通信工具往往产生大量的、用于人们交流和通信的交互性短文本,简称为短语消息。短...
- 王乐
- 关键词:文本相似度文本聚类
- 高超声速飞行器热环境计算方法、装置和计算机设备
- 本发明公开一种高超声速飞行器热环境计算方法、装置和计算机设备,该方法包括如下步骤:读取飞行器模型,生成流场计算网格,并计算网格的面权重系数;控制方程离散,计算无粘通量与粘性通量;计算人工粘性系数,并对其进行修正;基于人工...
- 张烨谢文佳田正雨王乐任伟杰李桦
- 基于SAN的海量数据查询分析系统备份与恢复策略设计
- 解决海量数据查询分析系统存在的数据量与查询速度,数据访问局部性与数据无限制性需求间的矛盾,设计并实现了一种备份和恢复策略,备份加载前的数据,并将业务数据的时间属性与备份任务关联,与基于 DBMS 的备份和恢复方式相比,降...
- 王乐韩伟红杨树强贾焰
- 关键词:海量数据SAN决策支持数据备份数据恢复
- 文献传递
- 基于BCBF+HSet布卢姆过滤器的数据流计数
- 突发检测是数据流的固有问题之一,因其应用广泛而备受研究者关注.突发检测中的一个基本问题是如何保存数据流中所有元素的频数.提出了一个基于改良的计数型布卢姆过滤器BCBF+HSet保存所有元素频数的解决方案.与直观的数组存储...
- 袁志坚缪嘉嘉贾焰王乐
- 关键词:数据流
- 文献传递
- 高超声速飞行器热环境计算方法、装置和计算机设备
- 本发明公开一种高超声速飞行器热环境计算方法、装置和计算机设备,该方法包括如下步骤:读取飞行器模型,生成流场计算网格,并计算网格的面权重系数;控制方程离散,计算无粘通量与粘性通量;计算人工粘性系数,并对其进行修正;基于人工...
- 张烨谢文佳田正雨王乐任伟杰李桦