您的位置: 专家智库 > >

高剑峰

作品数:4 被引量:82H指数:2
供职机构:微软公司更多>>
发文基金:天津市自然科学基金国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇信息检索
  • 2篇语言
  • 2篇语言模型
  • 2篇上下文
  • 1篇信息检索系统
  • 1篇损失函数
  • 1篇中文
  • 1篇中文信息
  • 1篇中文信息检索
  • 1篇链接
  • 1篇基于上下文
  • 1篇感知
  • 1篇感知器
  • 1篇WEB信息
  • 1篇WEB信息检...
  • 1篇测试集
  • 1篇查询
  • 1篇查询扩展

机构

  • 4篇微软公司
  • 2篇上海交通大学
  • 1篇清华大学
  • 1篇天津大学

作者

  • 4篇高剑峰
  • 2篇于浩
  • 2篇步丰林
  • 1篇张敏
  • 1篇贺宏朝
  • 1篇何丕廉
  • 1篇马少平
  • 1篇黄昌宁

传媒

  • 2篇计算机研究与...
  • 1篇计算机学报
  • 1篇中文信息学报

年份

  • 1篇2006
  • 1篇2005
  • 1篇2004
  • 1篇2002
4 条 记 录,以下是 1-4
排序方式:
一种基于上下文的中文信息检索查询扩展被引量:41
2002年
在中文信息检索的研究和实践中 ,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来 ,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象 ,然而 ,实验表明 ,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法 ,可以根据查询的上下文对扩展词进行选择 ,是一种相对“智能”的查询扩展方法。在TREC - 9中文信息检索测试集上进行的实验表明 ,相对于通常简单的查询扩展 ,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。
贺宏朝何丕廉高剑峰黄昌宁
关键词:查询扩展上下文中文信息检索测试集信息检索系统
一种新的语言模型判别训练方法被引量:2
2005年
已有的一些判别训练(discriminative training)方法如Boosting[1]为了提高算法的效率,要求损失函数(loss function)是可以求导的,这样的损失函数无法体现最直接的优化目标.而根据最直接优化目标定义的损失函数通常是不可导的阶梯函数的形式.为了解决上述问题,文章提出了一种新的判别训练的方法GAP(Greedy Approximation Processing).这种方法具有很强的通用性,只要满足阶梯函数形式的损失函数都可以通过此算法进行训练.由于阶梯形式的损失函数是不可导的,无法使用梯度下降的方式计算极值并获得特征权值.因此,GAP采用'贪心'算法的方式,顺序地从特征集合中选取特征,通过穷举搜索的方式确定其权值.为了提高GAP算法的速度,作者在GAP算法中引入了特征之间独立的假设,固定特征的更新顺序,提出了GAP的改进算法FGAP(Fast Greedy Approximation Processing).为了证明FGAP算法的有效性,该文将FGAP算法训练的模型应用到日文输入法中.实验结果表明通过FGAP算法训练的语言模型优于Boosting算法训练的模型,与基础模型相比相对错误率下降了15%~19%.
于浩高剑峰步丰林
关键词:语言模型损失函数
感知器在语言模型训练中的应用被引量:2
2006年
感知器(perceptron)是神经网络模型中的一种,它可以通过监督学习(supervised learning)的方法建立模式识别的能力.将感知器应用到语言模型的训练中,实现了感知器的两种不同训练规则以及多种特征权值计算方法,讨论了不同的训练参数对训练效果的影响.在训练之前,使用了一种基于经验风险最小化(empirical risk minimization,ERM)的特征选择算法确定特征集合.感知器训练之后的语言模型在日文假名到汉字(kana-kanji)的转换中进行评估.通过实验对比了感知器的两种训练规则以及变形算法的性能,同时发现通过感知器训练的模型比传统模型(N-gram)在性能上有了很大的提高,使相对错误率下降了15%~20%.
于浩步丰林高剑峰
关键词:感知器语言模型
基于链接描述文本及其上下文的Web信息检索被引量:38
2004年
文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %
张敏高剑峰马少平
关键词:WEB信息检索
共1页<1>
聚类工具0