您的位置: 专家智库 > >

张涛

作品数:10 被引量:0H指数:0
供职机构:北大方正集团有限公司更多>>

文献类型

  • 10篇中文专利

主题

  • 6篇网页
  • 4篇网络
  • 4篇抽取
  • 2篇信息内容
  • 2篇引擎
  • 2篇数据采集
  • 2篇搜索
  • 2篇搜索方法
  • 2篇搜索结果
  • 2篇搜索引擎
  • 2篇索引
  • 2篇索引文件
  • 2篇帖子
  • 2篇内容抽取
  • 2篇子树
  • 2篇自动抽取
  • 2篇网络技术
  • 2篇网络评论
  • 2篇网络数据
  • 2篇网络数据采集

机构

  • 10篇北京大学
  • 10篇北京北大方正...
  • 10篇北大方正集团...

作者

  • 10篇杨建武
  • 10篇张涛
  • 6篇于晓明
  • 4篇于晓明

年份

  • 2篇2018
  • 2篇2016
  • 2篇2015
  • 1篇2014
  • 2篇2013
  • 1篇2012
10 条 记 录,以下是 1-10
排序方式:
一种网络评论的采集方法及系统
本发明公开了一种网络评论的采集方法及系统。所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评...
张涛于晓明杨建武
文献传递
论坛贴内容抽取方法和装置
本发明提供了一种论坛贴内容抽取方法,包括:由论坛贴的源代码生成HTML标签树;将HTML标签树中的文本率大于第一阈值的标签子树合并得到一颗最大候选子树;从最大候选子树中筛选得到所有具有相似结构的节点簇;从节点簇中筛选文本...
张涛于晓明杨建武
文献传递
一种网络评论的采集方法及系统
本发明公开了一种网络评论的采集方法及系统。所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评...
张涛于晓明杨建武
文献传递
一种抽取论坛网页中帖子内容的方法及系统
本申请公开了一种抽取论坛网页中帖子内容的方法及系统,所述方法包括:获得一论坛网页;将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;一一对应地为所述根节点及所述至少一个子...
张涛杨建武于晓明
文献传递
论坛贴内容抽取方法和装置
本发明提供了一种论坛贴内容抽取方法,包括:由论坛贴的源代码生成HTML标签树;将HTML标签树中的文本率大于第一阈值的标签子树合并得到一颗最大候选子树;从最大候选子树中筛选得到所有具有相似结构的节点簇;从节点簇中筛选文本...
张涛于晓明杨建武
文献传递
一种抽取论坛网页中帖子内容的方法及系统
本申请公开了一种抽取论坛网页中帖子内容的方法及系统,所述方法包括:获得一论坛网页;将所述论坛网页转换成DOM树,其中,所述DOM树至少包括一根节点及从属于所述根节点的至少一个子节点;一一对应地为所述根节点及所述至少一个子...
张涛杨建武于晓明
文献传递
搜索方法和搜索引擎
本发明提供一种搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁...
张涛于晓明杨建武
文献传递
网络数据采集方法及装置
本发明实施例公开了一种网络数据采集方法及装置,涉及网络技术,为提高网络数据的采集效率而发明。所述方法包括:获取各个采集节点的性能效益参数值,其中所述性能效益参数值用于表示所述各个采集节点处理性能的优劣;根据所述性能效益参...
张涛杨建武于晓明吴新丽王松
文献传递
搜索方法和搜索引擎
本发明提供一种搜索方法和搜索引擎,通过接收用户终端发送的用于对网页进行搜索的关键字,利用各从节点的内存中存储的第一索引文件,进行搜索,获得与关键字相匹配的第一匹配网页后,若第一匹配网页的个数少于第一阈值,再利用各节点的磁...
张涛于晓明杨建武
文献传递
网络数据采集方法及装置
本发明实施例公开了一种网络数据采集方法及装置,涉及网络技术,为提高网络数据的采集效率而发明。所述方法包括:获取各个采集节点的性能效益参数值,其中所述性能效益参数值用于表示所述各个采集节点处理性能的优劣;根据所述性能效益参...
张涛杨建武于晓明吴新丽王松
文献传递
共1页<1>
聚类工具0