乐娟
- 作品数:3 被引量:20H指数:2
- 供职机构:北京理工大学计算机学院更多>>
- 发文基金:北京市优秀人才培养资助更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于HMM的京剧机构命名实体识别算法被引量:17
- 2013年
- 针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法。利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列。根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中。针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%。
- 乐娟赵玺
- 关键词:命名实体识别隐马尔科夫模型VITERBI算法规则树
- 基于Trie树的京剧术语语义词典被引量:3
- 2011年
- 现有的中文分词系统缺少专业分词组件,难以满足特定领域术语分词的需求,导致专业领域分词精确度较低。为此,提出基于Trie树的京剧术语词典。扩展主流词库,通过定义语义代码的方式建立京剧专业术语之间的语义联系,并利用双数组算法实现Trie。实验结果表明,加入专业术语词典可以提高系统的分词准确率。
- 乐娟
- 关键词:中文分词分词词典语义词典
- 基于SWRL的京剧本体隐含关系挖掘
- 2011年
- 互联网上京剧资源的组织方式与检索方式的效率较低。针对该问题,提出基于本体的知识表达方式,使用语义网络规则语言(SWRL)对京剧资源的隐含关系进行自动挖掘,支持用户检索的语义扩展,实现查询结果的关联知识推理,采用OWL构建京剧本体,定义该领域的基本概念,创建京剧艺术家、京剧人物及京剧剧目之间的约束。实验结果证明,该方法能提高检索的精度。
- 乐娟
- 关键词:京剧本体资源检索