高剑峰
- 作品数:4 被引量:82H指数:2
- 供职机构:微软公司更多>>
- 发文基金:天津市自然科学基金国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于上下文的中文信息检索查询扩展被引量:41
- 2002年
- 在中文信息检索的研究和实践中 ,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来 ,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象 ,然而 ,实验表明 ,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法 ,可以根据查询的上下文对扩展词进行选择 ,是一种相对“智能”的查询扩展方法。在TREC - 9中文信息检索测试集上进行的实验表明 ,相对于通常简单的查询扩展 ,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。
- 贺宏朝何丕廉高剑峰黄昌宁
- 关键词:查询扩展上下文中文信息检索测试集信息检索系统
- 一种新的语言模型判别训练方法被引量:2
- 2005年
- 已有的一些判别训练(discriminative training)方法如Boosting[1]为了提高算法的效率,要求损失函数(loss function)是可以求导的,这样的损失函数无法体现最直接的优化目标.而根据最直接优化目标定义的损失函数通常是不可导的阶梯函数的形式.为了解决上述问题,文章提出了一种新的判别训练的方法GAP(Greedy Approximation Processing).这种方法具有很强的通用性,只要满足阶梯函数形式的损失函数都可以通过此算法进行训练.由于阶梯形式的损失函数是不可导的,无法使用梯度下降的方式计算极值并获得特征权值.因此,GAP采用'贪心'算法的方式,顺序地从特征集合中选取特征,通过穷举搜索的方式确定其权值.为了提高GAP算法的速度,作者在GAP算法中引入了特征之间独立的假设,固定特征的更新顺序,提出了GAP的改进算法FGAP(Fast Greedy Approximation Processing).为了证明FGAP算法的有效性,该文将FGAP算法训练的模型应用到日文输入法中.实验结果表明通过FGAP算法训练的语言模型优于Boosting算法训练的模型,与基础模型相比相对错误率下降了15%~19%.
- 于浩高剑峰步丰林
- 关键词:语言模型损失函数
- 感知器在语言模型训练中的应用被引量:2
- 2006年
- 感知器(perceptron)是神经网络模型中的一种,它可以通过监督学习(supervised learning)的方法建立模式识别的能力.将感知器应用到语言模型的训练中,实现了感知器的两种不同训练规则以及多种特征权值计算方法,讨论了不同的训练参数对训练效果的影响.在训练之前,使用了一种基于经验风险最小化(empirical risk minimization,ERM)的特征选择算法确定特征集合.感知器训练之后的语言模型在日文假名到汉字(kana-kanji)的转换中进行评估.通过实验对比了感知器的两种训练规则以及变形算法的性能,同时发现通过感知器训练的模型比传统模型(N-gram)在性能上有了很大的提高,使相对错误率下降了15%~20%.
- 于浩步丰林高剑峰
- 关键词:感知器语言模型
- 基于链接描述文本及其上下文的Web信息检索被引量:38
- 2004年
- 文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %
- 张敏高剑峰马少平
- 关键词:WEB信息检索