李保利
- 作品数:6 被引量:507H指数:5
- 供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家教育部“985工程”更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 话题识别与跟踪研究被引量:93
- 2003年
- 作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点,目前国内在这方面的研究尚处在起步阶段。该文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等,希望能引起相关研究者对这项研究的关注。
- 李保利俞士汶
- 关键词:话题识别与跟踪信息检索自然语言处理
- 汉语新闻报道中的话题跟踪与识别研究
- 作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻报道信息流中新话题的自动识别以及对已知话题的动态跟踪.自1997年以来国际上连续举行的多次大规模评测使得话题识别与跟踪研究...
- 李保利
- 关键词:文本分类文本聚类信息检索浅层分析汉语新闻
- 基于格助词和接续特征的藏文自动分词方案被引量:52
- 2003年
- 本文结合藏文各类形态特征 ,首次提出了一种基于格助词和接续特征(BCCF ,BasedonCase auxiliarywordandContinuousFeature)的书面藏文自动分词方案。其总体技术特点是 :在格助词、接续特征、字性知识库以及词典支持下 ,进行逐级定位的确定性分词。初步测试表明 :这一方案在发现和消除切分歧义、解决未登录词问题 ,进而在提高藏文分词精度方面具有很高的实用价值。
- 陈玉忠李保利俞士汶兰措吉
- 关键词:格助词藏文分词
- 基于格关系和配价的藏语动词再分类研究
- 本文着重介绍了我们根据研制藏汉机器翻译系统的实际需要,在采用传统语法对藏语动词的已有分类基础上,采纳格语法和配价理论的合理思想,结合藏语的格接续特征,通过每个动词的配价信息以及所能携带的相应的格助词类型(格标)及其数量来...
- 陈玉忠李保利俞士汶
- 关键词:藏语动词配价理论
- 文献传递
- 信息抽取研究综述被引量:324
- 2003年
- 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。
- 李保利陈玉忠俞士汶
- 关键词:自然语言处理信息抽取信息检索命名实体识别计算机信息处理
- 藏文自动分词系统的设计与实现被引量:55
- 2003年
- 藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程 ,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果 ,结果表明系统具有较高的切分精度和较好的通用性。
- 陈玉忠李保利俞士汶
- 关键词:计算机应用中文信息处理格助词藏文自动分词