杨文峰
- 作品数:9 被引量:100H指数:4
- 供职机构:清华大学更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 网络搜索引擎的用户查询分析被引量:32
- 2001年
- 利用教科网搜索引擎"网络指南针"的查询记录,就其中102439个用户的810396次查询,在用户查询方式、查询表达以及查询词3个层次上,对用户查询行为进行了分析,得到了搜索引擎用户查询的一般规律。根据上述结论对搜索引擎的进一步发展进行了讨论。
- 杨文峰李星
- 关键词:搜索引擎日志分析用户查询信息检索
- 一种消除原子热振动效应的微观成像方法及装置
- 本申请涉及一种消除原子热振动效应的微观成像方法及装置。所述方法包括:在第i轮成像过程中通过电子束对待测样品进行扫描,并采集各扫描区域的衍射强度矩阵;分别获取待测样品各待测层的透射函数集合;针对任一扫描区域和任一原子热振动...
- 于荣杨文峰沙浩治崔吉哲
- 基于PAT TREE统计语言模型与关键词自动提取被引量:23
- 2001年
- 未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制。在该模型的基础上,通过相关性检测,从540M汉语语料中自动提取出了12万个关键词候选字串。最后,经过分析和筛选,候选字串的准确度由82.3%上升到96.1%。实验表明,基于PAT TREE的统计语言模型是实现未登录词提取的有力工具。
- 杨文峰李星
- 关键词:信息检索统计语言模型关键词INTERNET
- 基于PATRICIA tree的汉语自动分词词典机制被引量:42
- 2001年
- 分词词典是汉语信息处理系统的一个基本组成部分 ,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIAtree的数据结构 ,设计了一种可以对词典词条进行快速查询、更新的分词词典机制 ,并从理论上初步分析了它的性能。最后通过实验 ,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明 ,基于PATRICIAtree的分词词典机制具有更高的查询速度和更新效率 ,能满足大规模、开放文本处理系统的需求。
- 杨文峰陈光英李星
- 关键词:信息检索TREE汉语自动分词信息处理
- 基于关键词提取的中文文本部分索引模型的研究
- 该论文首次提出了基于篇章局部统计模型的关键词提取方法.在PAT Tree的基础上,设计了提取篇章中最长相关字串的快速算法,并通过最长相关字串在全局语料中分布的SIG指标对最长相关字串的质量进行评价,充分体现了语言的局部性...
- 杨文峰
- 关键词:信息检索关键词提取
- 重构电子轨道空间分布和电子束函数的方法及装置
- 本申请公开了一种重构电子轨道空间分布和电子束函数的方法及装置,其中,方法包括:控制移动电子束对样品进行扫描,获取样品每个扫描位置的衍射强度;初始化样品透射函数和电子束函数,根据衍射强度、样品透射函数和电子束函数建立包含待...
- 于荣杨文峰沙浩治崔吉哲
- 文献传递
- 用PAT Tree构建Internet搜索引擎分布式数据库被引量:5
- 2002年
- 文中根据Internet搜索引擎的特点 ,提出了用PATTree作为搜索引擎索引数据库的思想 ,在理论上对其可行性进行了分析 ,用它实现了一个能够对FTP站点进行检索的实验性搜索引擎。
- 杜可亮李星杨文峰
- 关键词:PAT-TREE搜索引擎分布式数据库
- 基于扫描衍射图的局域轨道函数三维重构方法及装置
- 本申请涉及三维成像技术领域,特别涉及一种基于扫描衍射图的局域轨道函数三维重构方法及装置,其中,方法包括:采集目标样品在多个倾转角度下的扫描衍射图集,计算多个倾转角度下所有片层中的每个倾转角度下每个片层中的投影势函数和每个...
- 于荣毛梁泽杨文峰
- 基于扫描衍射图的局域轨道函数三维重构方法及装置
- 本申请涉及三维成像技术领域,特别涉及一种基于扫描衍射图的局域轨道函数三维重构方法及装置,其中,方法包括:采集目标样品在多个倾转角度下的扫描衍射图集,计算多个倾转角度下所有片层中的每个倾转角度下每个片层中的投影势函数和每个...
- 于荣毛梁泽杨文峰