石静
- 作品数:5 被引量:44H指数:3
- 供职机构:北京大学信息科学技术学院计算语言学研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划北京市重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 汉语并列复句的自动识别方法被引量:6
- 2013年
- 针对汉语句际关系中分布最广泛的并列复句,提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算,使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法,在广义并列关系上进行评测。最后将其中3种方法进行集成,并取得了较为理想的效果。
- 吴云芳石静万富强吕学强
- 关键词:并列复句句际关系句子相似度
- 人子宫内膜细胞离体培养下ET-1-ir的分泌与调节
- 石静
- 基于大规模语料库的汉语词义相似度计算方法被引量:25
- 2013年
- 词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。
- 石静吴云芳邱立坤吕学强
- 汉语相似词的自动获取方法
- 相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语料库的无指导方法,同时实验了汉英双语信息的集成方法、多语体...
- 石静
- 关键词:语料库句子相似度
- 基于图的同义词集自动获取方法被引量:13
- 2011年
- 同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.
- 吴云芳石静金澎
- 关键词:相似词同义词集图模型