白宇
- 作品数:20 被引量:44H指数:3
- 供职机构:沈阳航空工业学院更多>>
- 发文基金:辽宁省自然科学基金教育部科学技术研究重点项目辽宁省教育厅高等学校科学研究项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于伪LCS的中文专利句子相似度计算方法
- 针对专利文献专业术语相对较多、形式规范、语言严谨的特点,本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进,并加入了词汇语义信息、词类和术语相相似度等相关信息,使其具有模...
- 卢延科尹宝生张桂平苗雪雷白宇
- 文献传递
- 基于用户日志分析的查询扩展研究
- 查询扩展是信息检索中关键问题之一,查询扩展的有效性决定其检索性能。用户查询日志是大量用户长期查询行为的记录,通过挖掘用户查询与用户日志之间的联系,构建相关词表,从而实现查询扩展。本文提出了一种结合局部上下文分析与用户行为...
- 李东园白宇蔡东风
- 关键词:查询扩展用户日志用户行为分析
- 文献传递
- 统计与语义相融合的词语相似度计算
- 词语相似度计算是自然语言处理领域的基础和研究难点。本文利用知网的相关概念场,将词语的相关性引入到基于平均互信息的词语相似度计算中,并提出了统计和语义相结合的词语相似度计算方法,采用了国家公务员考试“词语替换”题型进行测试...
- 郭丽蔡东风季铎白宇
- 关键词:汉字处理词语相似度数理语言学
- 文献传递
- 问答系统中复杂类问题的分析方法研究被引量:1
- 2009年
- 基于自动构建的问句模板库,对中文复杂类问题进行问题分类和关键词抽取,并提出一种基于在线百科知识和搜索引擎的关键词扩展方法,从而提高了系统的整体表现。实验采用NTC IR-7 CCLQA的测试语料,表明该方法的问题分类准确率达88%。关键词的扩展使得系统F值提升了20%。
- 刘磊郭丽白宇蔡东风
- 面向中文问答的信息检索系统及评测被引量:3
- 2009年
- 为了解决中文问答系统中检索有效性的问题,提出并构建了一个面向中文问答的信息检索系统,在新进展的基础上,该系统通过利用问答系统中问题分类信息,对查询进行优化处理,从而改进问答系统中检索结果的质量,在独立的检索评测中正确率达到0.5013,在问答系统的整体评测中F3值达到0.2231,取得了较好的效果。
- 李东园白宇蔡东风
- 关键词:信息检索问答系统查询扩展
- 一种基于语境的词语相似度计算方法
- 词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。本文引入模糊数学中隶属函数...
- 白宇于水叶娜蔡东风任晓娜
- 关键词:词语相似度隶属函数自然语言处理
- 文献传递
- 基于Web的中英术语翻译获取方法研究被引量:2
- 2010年
- 从Web双语资源中获取术语翻译具有很大应用价值。从实用化术语翻译角度出发,设计了一个基于Web的中英术语翻译系统。该系统使用Google搜索引擎,通过关键词扩展技术搜索词汇表类型网页,从其搜索结果摘要中抽取术语翻译。实验结果表明系统取得良好性能:TOP1的正确率达到90.9%,TOP3的正确率达到95.4%。
- 董燕举白宇蔡东风
- 关键词:WEB信息抽取术语翻译信息检索WEB挖掘
- 一种基于语境的词语相似度计算方法被引量:12
- 2010年
- 词语相似度计算是机器翻译、信息检索等自然语言处理领域的关键问题之一。传统的词语相似度计算方法,未能很好地考虑上下文信息对词语语义的约束,从而不能对语境变换带来的词语间相似度的差异进行有效的区分。该文引入模糊数学中隶属函数的概念计算词语上下文信息的模糊重要度,并结合基于《知网》的语义相似度计算方法,提出一种基于语境的词语相似度计算方法。实验表明,该算法可以根据语境有效地区分语义相近的词语。
- 蔡东风白宇于水叶娜任晓娜
- 关键词:计算机应用中文信息处理语境词语相似度隶属函数
- 面向事实性问题的答案选择技术研究综述
- 2009年
- 答案选择是问答系统的一个关键步骤,它的任务是从候选答案集中选择出最佳答案返给用户,其主要研究内容包括答案选择的标准、方法及评价。该文首先介绍了主要的答案选择标准,分析了答案选择标准与问答系统评测之间的关系。然后将答案选择策略分为基于冗余的策略、基于相似性的策略和基于推理的策略,分别对每种策略的主要答案选择方法和特点进行了概述。随后又介绍了答案选择的评价指标及答案验证评测。最后讨论了答案选择所面临的主要问题,并对其未来的发展方向进行了展望。
- 董燕举蔡东风白宇
- 关键词:计算机应用中文信息处理自然语言处理问答系统
- 基于联合权重的多文档关键词抽取技术
- 本文对内容相近的多个文档抽取关键词。考虑到TF*IDF方法仅适于计算词语在单个文档中的权重,本文提出一种计算词语权重的方法ATF*PDF(Average Term Frequency*Proportional Docum...
- 杨洁季铎蔡东风白宇
- 关键词:多文档语义相似度
- 文献传递