重庆市自然科学基金(2007BB6118)
- 作品数:2 被引量:8H指数:1
- 相关作者:汪成亮庞栩陆志坚张硕果更多>>
- 相关机构:重庆大学更多>>
- 发文基金:重庆市自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 通过确定邻近区域改进KNN文本分类被引量:1
- 2009年
- 文本分类技术已经成为处理和组织文本信息的关键技术之一。KNN算法是文本分类中一种实用的方法。它在每次分类的过程中都要计算测试集中未标记文本与训练集合中所有样本的相似度(距离),然后通过排序来找到K个最近邻样本,耗时较长,不利于Web上实时在线分类等应用。提出了一种确定邻近区域来加快搜寻K个最近邻的方法。试验证明,改进后的KNN算法较经典KNN算法在分类过程中速度有所提升,并且当训练文本数量增加时,在分类时间上表现相对更稳定。
- 汪成亮张硕果
- 关键词:文本分类相似度KNN算法
- 一种数据流趋势分析方法的研究与应用被引量:7
- 2010年
- 有效趋势的提取可为监控对象提供早期预警、状态评估和决策支持。传统的曲线趋势分析算法有滑动窗口(SW)算法、外推式在线数据分割(OSD)算法,二者均采用常规最小二乘法进行曲线拟合。与常规最小二乘法相比,总体最小二乘法具有更高的直线拟合精度。此外,针对SW算法的滑动窗口最大长度没有限制,当检测点阈值比较大时,窗口的长度可能很长;而0SD算法限定了最小滑动窗口长度,使得在最小滑动窗口内的突变点无法检测。针对SW算法和OSD算法的缺陷,提出了一种新的数据流趋势分析方法,该方法采用总体最小二乘法对数据流进行分段拟合,提高了趋势分析精度;还提出了可变滑动窗口算法解决SW算法和OSD算法的固定窗口问题,以实现对数据流的合理分割。实验结果表明,有效性较为明显。
- 汪成亮陆志坚庞栩
- 关键词:动态数据挖掘