您的位置: 专家智库 > >

曹海

作品数:1 被引量:4H指数:1
供职机构:复旦大学计算机科学技术学院上海市数据科学重点实验室更多>>
发文基金:上海市科学技术委员会资助项目国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇迭代
  • 1篇短文
  • 1篇去重
  • 1篇去重算法
  • 1篇最近邻
  • 1篇共享最近邻
  • 1篇SIM
  • 1篇HASH算法

机构

  • 1篇复旦大学

作者

  • 1篇史喜斌
  • 1篇曹海
  • 1篇孙婧

传媒

  • 1篇计算机工程

年份

  • 1篇2015
1 条 记 录,以下是 1-1
排序方式:
基于特征迭代的短文本去重算法被引量:4
2015年
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。
曹海孙婧史喜斌
关键词:共享最近邻迭代去重
共1页<1>
聚类工具0