国家部委预研基金(504-4)
- 作品数:3 被引量:13H指数:2
- 相关作者:刘玉树吕琳周世斌白敬华更多>>
- 相关机构:北京理工大学中国矿业大学更多>>
- 发文基金:国家部委预研基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 最大熵和Brill方法结合识别英语BaseNPs被引量:7
- 2006年
- 为了进一步提高基本名词短语(BaseNPs)的识别精度,针对最大熵方法和Brill方法各自的特点,提出基于两者相结合的英语基本名词短语识别算法.该算法是在高准确率词性标注的基础上实现的.在训练和测试两个阶段中,均先采用最大熵方法识别基本名词短语,然后将已具有很高精度的识别结果作为初始标注结果运用于Brill方法中.实验结果表明,此联合算法达到了94%的准确率和召回率,充分融合了最大熵方法和Brill方法的优点,可与基于相同训练和测试语料的目前最理想的英语基本名词短语识别结果相比.
- 吕琳刘玉树
- 关键词:基本名词短语短语识别最大熵
- 一种高性能英文词性标注器的设计与实现被引量:5
- 2005年
- 针对统计和规则方法各自的优点和局限,提出运用V iterb i和FTBL(fast transform ation-based learn ing)算法相级联的算法,实现一种英文自动词性标注器.该级联方法以FTBL算法为整体算法,在它的规则学习和最终标注两个阶段,均以V iterb i算法作为其初始化过程.实验结果表明此算法优于其中任何一种单独的算法,达到了98%的高准确率,验证了自然语言处理中统计与规则并举的主流设计思想.
- 吕琳周世斌刘玉树
- 关键词:VITERBI隐马尔可夫模型
- 统计流形上基于核近邻算法的文本分类研究被引量:1
- 2010年
- 为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.
- 周世斌白敬华刘玉树
- 关键词:文本分类