沈强
- 作品数:4 被引量:31H指数:2
- 供职机构:昆明理工大学信息工程与自动化学院更多>>
- 发文基金:国家自然科学基金云南省科技厅科研基金云南省教育厅科学研究基金重点项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于最大熵的泰语句子级实体从属关系抽取被引量:2
- 2017年
- 采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.
- 王红斌李金绘沈强线岩团毛存礼
- 关键词:最大熵模型
- 融合迁移学习的中文命名实体识别被引量:23
- 2017年
- 命名实体识别是自然语言处理研究领域中的一项很重要的基础性任务,是实体关系抽取和事件抽取等高层任务重要基石.如何在缺乏标注语料或只有少量标注语料条件下,提高命名实体识别的性能是自然语言处理领域的一个重要研究方向.针对这一问题,提出一种基于实例的迁移学习算法——TLNER_AdaBoost.该方法通过自动调整训练集中实例样本的权重和计算辅助训练样本的迁移能力来提高训练语料质量,并选取采用不完全标注语料的自学习方法和采用完全标注语料的基于条件随机场的方法来对该方法进行实验对比分析.经实验对比分析得知,本文方法在提高命名实体识别的准确率、召回率和F值的同时,大大降低了人工标注语料的工作量.
- 王红斌沈强线岩团
- 关键词:命名实体识别BOOST
- 泰语人名、地名、机构名实体识别研究被引量:6
- 2019年
- 泰语命名实体识别是把泰语文本中的人名、地名、机构名等识别出来。由于泰语构词方法和语法规则复杂,针对这一问题,将泰语命名实体识别任务转化为对泰语句子中的词汇序列进行标记。结合泰语语言特点,选择合适的泰语上下文特征,分别使用隐马尔科夫模型和条件随机场模型在泰语实体识别训练语料上进行了模型构建,并在测试语料上对所构建的序列标注模型进行了实验验证。实验结果表明使用隐马尔科夫模型和条件随机场模型进行泰语人名、地名、机构名实体识别是可行的,并取得了较好的效果。
- 王红斌王红斌沈强沈强
- 关键词:命名实体识别
- 基于最大熵的泰语句子级实体从属关系抽取
- 采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等...
- 王红斌李金绘沈强线岩团毛存礼
- 关键词:从属关系最大熵模型