您的位置: 专家智库 > >

唐远华

作品数:3 被引量:6H指数:2
供职机构:华南理工大学软件学院更多>>
发文基金:广东省科技计划工业攻关项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 2篇聚类
  • 1篇多向量
  • 1篇新闻
  • 1篇新闻热点
  • 1篇知识库
  • 1篇知网
  • 1篇爬虫
  • 1篇热点信息
  • 1篇抓取
  • 1篇自动抽取
  • 1篇网络
  • 1篇网络爬虫
  • 1篇网页
  • 1篇网页分类
  • 1篇文本聚类
  • 1篇相似度
  • 1篇相似度计算
  • 1篇向量
  • 1篇领域知识
  • 1篇领域知识库

机构

  • 3篇华南理工大学

作者

  • 3篇唐远华
  • 2篇王振宇
  • 1篇吴泽衡
  • 1篇郭力

传媒

  • 1篇计算机工程与...
  • 1篇计算机工程与...

年份

  • 3篇2012
3 条 记 录,以下是 1-3
排序方式:
面向分层结构的网页分类与抓取被引量:2
2012年
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。
王振宇唐远华郭力
关键词:网络爬虫网页分类领域知识库知网
基于多向量和二次聚类的话题检测被引量:3
2012年
话题检测技术是互联网新闻热点挖掘的基础,为解决基于传统的话题检测较少利用报道中的类别信息以及命名实体信息来提高检测效果,提出一种基于多向量相似度计算和二次聚类的话题检测方法。将报道按照其所在的站点层次关系进行层次分类,利用新闻文本中的地点、人物等命名实体信息来区分新闻报道;利用报道的时间聚集特性,将同一天的报道先进行局部聚类,再与旧话题归并聚类。实验结果表明,该方法的归一化识别代价达到0.197,比传统的话题检测算法提升约8%的性能。
王振宇吴泽衡唐远华
关键词:新闻热点相似度计算聚类
Web新闻热点信息的自动发现及展示
随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的第四大媒体。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源,因此,如何自动的从巨大的网络资源中...
唐远华
关键词:话题检测与跟踪关键词自动抽取文本聚类PAT-TREE
文献传递
共1页<1>
聚类工具0