黄玉兰
- 作品数:12 被引量:14H指数:3
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于伪相关反馈模型的领域词典生成算法被引量:3
- 2008年
- 本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。
- 黄玉兰龚才春许洪波程学旗
- 关键词:计算机应用中文信息处理领域词典大规模语料
- 基于伪相关反馈模型的领域词典生成算法
- 本文提出了一种基于伪相关反馈模型的领域访词典自动生成算泫。将领域词典生成过程视为领域术语的检索过程:对于绘定的领域语料 C,对于发现的有意思 S,如果 S 是 C 的领域术语, 则称 S 与 C 相关。假设初始检索出来的...
- 黄玉兰龚才春许洪波程学旗
- 关键词:领域词典大规模语料
- 文献传递
- 有意义串挖掘及其应用
- 随着经济、社会的飞速发展,尤其是互联网的迅猛发展,自然语言中的新词语和短语不断涌现。发现这些频繁使用、具有特定语义的新词和短语,对索引词优化、社会热点发现、词典编撰等问题都具有非常重要的意义。
本文将频繁使用、具有...
- 黄玉兰
- 关键词:文本分类
- 一种新词发现方法和系统
- 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈...
- 龚才春黄玉兰
- 文献传递
- 一种专业术语抽取方法和系统
- 本发明涉及自然语言计算机处理领域,提供了一种专业术语抽取方法,首先,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;而后,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包...
- 张华平黄玉兰龚才春
- 文献传递
- 基于局部性原理的有意义串提取方法
- 本文提出基于局部性原理的有意义串提取算法。本文发现有意义串遵循空间局部性原理和时间局部性原理,并用LE值量化字符串的局部性。在此基础上,利用LE值和其他统计量共同提取有意义串。实验证明局部性原理能够提高查找有意义串的准确...
- 黄玉兰龚才春许洪波程学旗
- 关键词:准确率
- 文献传递
- 一种短文本的新词发现方法和系统
- 本发明公开了一种从短文本中发现新词的方法,包括以下步骤:获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数...
- 龚才春黄玉兰
- 文献传递
- 基于多重索引模型的大规模词典近似匹配算法被引量:7
- 2008年
- 编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.
- 龚才春黄玉兰许洪波白硕
- 关键词:拼写检查
- 一种新词发现方法和系统
- 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈...
- 龚才春黄玉兰
- 文献传递
- 一种面向互联网的有意义串的挖掘方法和系统
- 本发明公开了一种面向互联网的有意义串的挖掘方法和系统。该方法包括下列步骤:步骤A,重复字符串发现;步骤B,通过上下文邻接分析过滤所述字符串;步骤C,通过语言模型分析过滤所述字符串。其能够有效的提取网页或大规模文本数据中的...
- 张华平贺敏黄玉兰龚才春
- 文献传递