国家社会科学基金(09CYY021)
- 作品数:12 被引量:21H指数:3
- 相关作者:吕学强赵红改肖诗斌郑丽施水才更多>>
- 相关机构:北京信息科技大学更多>>
- 发文基金:国家社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 搜索引擎日志中“V+N_1+N_2”型短语研究被引量:1
- 2011年
- 搜索引擎用短语词典能够有效地改善和提高信息检索的性能,"V+N1+N2"型结构是一种常见汉语短语结构。本文基于搜狗语料,分别从各组成要素特点、语义特征以及句法功能,对"V+N1+N2"型动词短语和名词短语进行统计分析和相关数据处理。针对不同语义关系,在不改变原语义的条件下,提出了相应的转换模式,为搜索引擎用短语词典的构建提供了理论支撑。
- 吕学强舒燕孙立华程涛
- 关键词:搜索引擎句法功能
- 搜索引擎日志中“N_1+N_2+V”型名词短语研究被引量:3
- 2011年
- "N1+N2+V"结构是组成名词短语的一种基本形式。本文基于搜狗日志语料,对搜索引擎日志中的"N1+N2+V"型名词短语进行研究。针对语料自身的特点,从句法特征、短语的层次切分与拆分、句法功能和语义关系4方面,对这类短语进行了考察,着重分析了N1与N2、N2与V的语义关系。文中对搜狗日志的查询内容进行了深入分析和实证,为搜索引擎用短语词典的构建研究提供理论依据。
- 肖诗斌赵红改王洪俊吕学强
- 关键词:搜索引擎日志句法特征句法功能语义关系
- 搜索日志中“V+N”、“V+V”型短语识别被引量:1
- 2012年
- 从搜狗日志语料出发,分析语料特点,以词语本身、词性信息、位置信息、查询词串频次和音节数为特征,提出了基于SVM_HMM模型的短语自动识别方法,对"V+N"、"V+V"短语进行多重对比实验,实验验证了上下文信息量的增加能提高短语识别效率,证实了音节数、位置特征对实验效果的低影响力,为搜索引擎用短语词典的构建提供技术支持,为进一步的短语类别识别研究提供方向性指导。
- 吕学强舒燕施水才
- 百度搜索日志中查询疑问推荐研究
- 2014年
- 查询疑问推荐,即通过推荐更合适的问句作为查询串来提升用户的搜索体验,其作为查询推荐的一个分支,是查询优化的主要障碍之一.本文依据百度搜索日志,研究搜索日志中疑问查询的语言特点,对显式疑问查询和隐式疑问查询进行分析,综合考虑到疑问查询在主题与疑问焦点方面信息的特征,提出了一种构建"主题-疑问焦点-问句"模型(简称为TFQ模型)的查询疑问推荐方法.在大规模真实Web搜索日志与搜索引擎反馈结果上的实验表明:准确性方面,推荐问句的MAP达到0.713;多样性方面,推荐问句的查询子话题精度(SP@r)达到0.630.
- 倪廓阔吕学强
- 关键词:搜索日志
- 搜索引擎日志中“N+V”和“N_1+N_2+V”型短语自动识别被引量:2
- 2012年
- 正确识别搜索引擎日志中的短语,对搜索引擎用短语词典构建和提高搜索引擎性能具有重要的作用。该文提出一种应用条件随机场实现对搜狗日志语料中"N+V"和"N1+N2+V"型短语自动识别的方法。模型的特征集包含词、词性和词语长度。由人工设计候选特征集,从中选择有效的特征构成特征模板,训练生成用于短语自动识别的条件随机场模型。封闭测试和开放测试的实验结果表明,模型能够实现对这两种短语的有效识别。
- 赵红改吕学强施水才郑丽
- 关键词:条件随机场模型搜索引擎日志
- 搜索引擎日志中“N+V”型主谓短语研究被引量:3
- 2011年
- "N+V"型结构能够构成定中偏正、状中偏正和主谓三种不同结构的短语。基于搜狗日志语料,对"N+V"型主谓短语从其各组成要素特点、音节特点和句法功能三方面进行研究,着重从语义方面对"V"进行阐述。文中,还对实验数据进行深入的分析和实证,针对"N+V"型短语的句法结构歧义问题,提供了解决方案,这为提高中文搜索引擎的检索质量和搜索引擎用短语词典构建提供了重要的理论依据。
- 赵红改肖诗斌王洪俊吕学强
- 关键词:搜索引擎主谓短语句法功能
- 搜索引擎日志短语标注规范
- 2013年
- 语料标注是语料库构建的一项重要的基础性工作。基于搜狗日志,该文借助XML文档的结构化特点,将语料标注转换成节点属性的改写,根据语料的特点,制定了一套服务于搜索引擎用短语词典构建的短语语料标注加工规范及执行原则,并对标注集及加工规范进行了详细描述。利用此规范,已完成145 645条查询词串的标注,而且标注质量很高。
- 舒燕吕学强
- 关键词:短语词典
- 搜索引擎日志中“N+V”型短语分析被引量:3
- 2012年
- 句法分析是自然语言处理中的一个难点和重点。基于搜狗日志语料,提出一种用层叠条件随机场模型实现搜索引擎日志中"N+V"型短语分析的方法。将短语分析分为两个阶段:"N+V"型短语内部结构分析和外部功能分析。这为"N+N+V"型短语和"N+V+V"型短语等外显型歧义结构的消歧提供了解决方法,从而为搜索引擎用短语词典构建提供基础研究服务。
- 赵红改吕学强肖诗斌
- 搜索引擎日志中“N+V+N”、“V+N+N”型短语识别被引量:1
- 2013年
- 短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中"N+V+N"、"V+N+N"型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模型。实验结果显示,利用最大熵方法对两种短语进行开放性测试,两种短语的识别F值分别达到85.78%和76.47%,取得了较好的自动识别效果,在半开放性测试中,其识别结果更佳。
- 郑丽吕学强
- 关键词:短语识别
- 搜索引擎日志中“N_1+N_2”型名词短语研究被引量:9
- 2010年
- 在基于搜索日志的基础上,根据语料本身具有的特点,对"N1+N2"型结构的名词短语进行全面的描述,其中包括各组成要素的特点和句法功能,并给出该结构类型名词短语挖掘与校对的基本方法。通过对实验结果的分析,进一步说明短语的研究在搜索引擎中的重要作用。
- 刘志杰吕学强程涛
- 关键词:搜索日志名词短语