您的位置: 专家智库 > >

谢正茂

作品数:9 被引量:110H指数:2
供职机构:北京大学信息科学技术学院更多>>
发文基金:国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 4篇期刊文章
  • 2篇学位论文
  • 2篇专利
  • 1篇会议论文

领域

  • 6篇自动化与计算...
  • 1篇电子电信

主题

  • 4篇引擎
  • 4篇搜索
  • 4篇搜索引擎
  • 4篇索引
  • 4篇网页
  • 3篇引擎系统
  • 3篇用户
  • 3篇用户查询
  • 3篇搜索引擎系统
  • 3篇查询
  • 2篇中位
  • 2篇重复网页
  • 2篇万维网
  • 2篇空间复杂度
  • 2篇关键字
  • 2篇复杂度
  • 2篇WEB
  • 1篇多播
  • 1篇信息存储
  • 1篇用户行为

机构

  • 9篇北京大学

作者

  • 9篇谢正茂
  • 4篇王建勇
  • 3篇李晓明
  • 3篇单松巍
  • 3篇李晓明
  • 2篇闫宏飞
  • 2篇雷鸣
  • 2篇赵江华
  • 1篇黄连恩
  • 1篇张帆
  • 1篇陈维政
  • 1篇张霞

传媒

  • 1篇电子学报
  • 1篇中国科学(E...
  • 1篇计算机科学与...
  • 1篇集成技术

年份

  • 1篇2017
  • 1篇2013
  • 1篇2012
  • 1篇2005
  • 2篇2003
  • 2篇2001
  • 1篇2000
9 条 记 录,以下是 1-9
排序方式:
Web Informall中网页的获取与存储方法研究
谢正茂
关键词:重复网页
判断一组查询关键字或词在网页中位置相关性的方法
一种判断一组查询关键字或词在网页中位置相关性的方法,其特征在于:搜索引擎系统为每个关键字或词计算出其在网页中的前向相邻字/词和后向相邻字/词;依据上述信息判断在用户查询项中相邻的字/词是否在网页中也相邻;如果完全相邻,则...
王建勇李晓明谢正茂单松巍赵江华
文献传递
一种流数据多播接口的设计、实现与应用
2012年
海量流数据的分析与处理是信息社会面对的一个基本问题。各种传感器汇聚的数据是流数据,人们发出的短信对于移动通信运营商的数据中心来说是流数据,人们写的微博对于新浪或者腾讯来说是流数据,搜索引擎网页爬取子系统传给后台处理的数据也可以看成是流数据。尽管它们的应用背景不同,但有共同的特征,即存在一个网络上的汇聚节点,从该节点的角度看,数据源源不断地到来。通常,这些数据会以某种特定的格式缓存起来,待某个特定的后续系统处理。启发本文工作的问题是:那些数据常常是有多方面价值的,有些甚至是当前没有想到的,我们有必要同时开放一个流数据接口供未来可能出现的新应用调用。该接口应该具有如下特征:(1)向外输出原始流数据;(2)允许其他(多个)应用程序动态接入和退出;(3)接入的应用程序的行为不影响数据搜集和最初设计的后续系统的功能。本文以连续运行了10年以上的天网搜索引擎和中国Web博物馆(WebInfomall)为例,讨论其网页搜集子系统的改造以适应上述需求,IP多播是采用的基本技术。在介绍了设计思想和实现要点后,我们也给出一个"新应用"的实际例子。这样一个接口的实现,为各种网页流信息分析应用打开了一扇窗口。该接口的设计思想也可以用于其他流数据汇聚系统中。
谢正茂张帆李晓明
关键词:流数据多播网页抓取API松耦合
直推式网络表示学习被引量:2
2017年
网络表示学习是一个经典的学习问题,其目的是将高维的网络在低维度的向量空间进行表示。目前大多数的网络表示学习方法都是无监督的,忽视了标签信息。受LINE(large-scale information network embed-ding)算法启发而提出了一种半监督的学习算法TLINE。TLINE是一种直推式表示学习算法,其通过优化LINE部分的目标函数来保留网络的局部特性。而标签信息部分,则使用线性支持向量机(support vector machine)来提高带标签结点的区分度。通过边采样、负采样和异步随机梯度下降来降低算法的复杂度,从而使TLINE算法可以处理大型的网络。最后,在论文引用数据集Cite Seer和共同作者数据集DBLP上进行了实验,实验结果表明,TLINE算法明显优于经典的无监督网络表示学习算法Deep Walk和LINE。
张霞陈维政谢正茂闫宏飞
Web Infomall:一个大规模的Web存档系统
随着时间的流逝,中国互联网上出现过的信息资源会成为一笔宝贵的财富,会为各领域和各行业提供持续价值.为了使历史网页不会随时间的流逝而改变,并且每日不断记录网站的变化,不更改以前的保存结果,需要一个适合于Web规模的存档系统...
闫宏飞黄连恩谢正茂李晓明
关键词:互联网信息存储可靠性
文献传递
海量Web搜索引擎系统中用户行为的分布特征及其启示被引量:77
2001年
统计分析了大规模搜索引擎系统的用户行为的分布特征 .结果表明 ,用户查询内容和URL点击表现出明显的局部性 ;用户查询的分布符合幂函数的特征并具有良好的自相似性 .基于上述规律 ,设计了查询cache ,比较了FIFO ,LRU及带衰减的LFU等 3种cache替换策略 .然后 ,基于用户行为考察了海量网页信息的分布特征 ,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析 ,阐明了其对优化搜索引擎系统定序算法 (rankingalgorithm)的启示 .
王建勇单松巍雷鸣谢正茂李晓明
关键词:万维网搜索引擎系统WEB网页用户行为用户查询
Web Infomall中网页的获取与存储方法研究
Web上信息就像一条河流,从我们身边不停流过.已经有很多人认识到这些信息的价值,从而展开了对Web信息多方面的研究.该文阐述的内容就是基于这些研究,并希望能够对他人的相关工作带来方便.文章围绕的中心是Web数据的高效获取...
谢正茂
关键词:重复网页
判断一组查询关键字或词在网页中位置相关性的方法
一种判断一组查询关键字或词在网页中位置相关性的方法,其特征在于:搜索引擎系统为每个关键字或词计算出其在网页中的前向相邻字/词和后向相邻字/词;依据上述信息判断在用户查询项中相邻的字/词是否在网页中也相邻;如果完全相邻,则...
王建勇李晓明谢正茂单松巍赵江华
文献传递
近似镜像网页检测算法的研究与评价被引量:33
2000年
当前在WWW上有众多的近似镜像web页面 ,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一 .为基于关键词匹配的搜索引擎系统提出了 5种近似镜像网页检测算法 ,并利用“天网”系统对这 5种算法进行了实际评测 .另外还将它们与现有的方法进行了对比分析 .本文所论述的近似镜像检测算法已成功地被用于消除“天网”系统的重复网页 。
王建勇谢正茂雷鸣李晓明
关键词:万维网搜索引擎向量空间模型MD5
共1页<1>
聚类工具0