教育部人文社会科学研究基金(12YJC870008)
- 作品数:16 被引量:66H指数:4
- 相关作者:顾磊赵阳王勇更多>>
- 相关机构:南京邮电大学南京林业大学更多>>
- 发文基金:教育部人文社会科学研究基金江苏省教育厅哲学社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学文学历史地理更多>>
- 基于分层选择策略的主动学习分词方法
- 2015年
- 为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在PKU、MSR和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。
- 梁喜涛顾磊
- 关键词:中文分词
- 山海经中的古人地理空间认知研究被引量:1
- 2014年
- 在现有《山海经》研究的基础上,结合地理空间认知理论体系,针对《山海经》一类的古籍研究中较少涉及的角度进行了探讨。从空间认知的角度进一步确定了《山海经》的性质为地理书的及《山海经》中古人空间认知的特点。对从这一角度出发进行的研究成果进行了展望,并进行了思考。
- 赵阳
- 关键词:山海经
- 古籍数字化与古代文学课程研讨式教学模式实践
- 2012年
- 古籍数字化这一学科领域的发展,为古代文学的教学实践带来了革新和推进。本文试图从研讨式教学方法的角度切入,探讨如何运用古籍数字化的成果,进一步提高古代文学教学的质量和效果。
- 赵阳顾磊
- 关键词:古籍数字化古代文学教学
- 古籍智能整理研究现状及存在的问题被引量:4
- 2016年
- 随着古籍数字化技术的深入发展,古籍智能整理渐渐成为众多研究者的研究目标,近年来已经取得了一些成绩。文章提出一个新的分层的古籍智能整理系统,该系统是一个具有基础层和应用层的两层系统,然后在搜集整理当前研究成果的基础上,分别从5个重要的方面对古籍智能整理关键技术的研究现状进行概述,并且探讨了当前研究现状中存在的问题。
- 顾磊赵阳
- 关键词:古籍数字化中文信息处理技术
- 古籍全文文本化中存在的若干问题被引量:5
- 2013年
- 随着多媒体硬件技术和计算机软件技术的迅速发展,古籍全文数字化从20世纪80年代开始就逐渐成为研究的热点,并且取得了很多不错的成绩。然而,目前古籍全文数字化多采用全文图像化的方式,这种方式与全文文本化方式相比不利于古籍的全文检索。文章在搜集整理当前研究与应用成果的基础上,对古籍全文文本化涉及到的系统设计、古籍的种类、古籍图像的获取、古籍图像的自动版面分析、古籍图像中文字的自动分割与识别等几个方面存在的若干问题进行了探讨。
- 顾磊赵阳
- 关键词:古籍数字化版面分析文字分割字符识别
- 古籍数字化背景下的中国古代文学教学变革
- 2012年
- 古籍数字化为人文类科学研究提供了前所未有的发展机遇,使得古代文学这一古老的学科在新时期新条件下焕发出历久弥新的魅力。本论文试从利弊两个层面来探讨一下古代文学课程面临的变革,以期为古代文学课程的完善提供有益的思路。
- 赵阳
- 关键词:古籍数字化中国古代文学教学
- 基于字串切分统计词典的繁体中文拼写检错方法
- 2016年
- 针对繁体中文拼写检错的问题进行了研究,提出一种基于字串切分统计词典的检错方法。利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。以SIGHAN7会议中文拼写校验任务中用于检错评测的1 000句测试集作为实验测试集,并与此会议提交的结果进行比较,实验结果表明,与基于复杂语言模型的检错方法相比,该方法在实现简单的同时也有很好的检错效果,获得了较高的准确率和精确率以及较低的误报率。
- 王勇顾磊
- 关键词:中文分词
- 中文分词与词性标注研究被引量:48
- 2015年
- 分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前分词和词性标注研究与应用成果的基础上,对中文分词和词性标注的基本方法进行了分类和探讨。首先在分词方面,对基于词典的和基于统计的方法进行了详细介绍,并且列了三届分词竞赛的结果;其次在词性标注方面,分别对基于规则的方法和基于统计的方法进行了阐述;接下来介绍了中文分词和词性标注一体化模型相关方法。此外还分析了各种分词和词性标注方法的优点和不足,在此基础上,为中文分词和词性标注的进一步发展提供了建议。
- 梁喜涛顾磊
- 关键词:中文分词词性标注自然语言处理
- 基于委员会投票的主动学习中文分词方法
- 2016年
- 主动学习方法可以减少人工标注海量数据时的代价,因此在中文信息处理领域中具有非常重要的作用。文章提出了一种基于委员会投票的主动学习分词方法。该方法的核心思想就是利用Bagging算法构建委员会并对其进行投票,然后采用新的样本选择策略,选择样本进行人工标注。最后采用主动学习中文分词方法与利用投票选择样本的主动学习中文分词方法在3个数据集上进行了实验,实验结果表明文章提出的方法不仅可以用于中文分词,而且能够取得更好的分词效果。
- 顾磊梁喜涛
- 关键词:中文分词
- 古籍数字化与古代文学课程循环式教学模式实践
- 2012年
- 古籍数字化这一学科领域的发展,为古代文学的教学实践带来了革新。本文试图从循环式教学方法的角度切入,探讨如何运用古籍数字化的成果,进一步提高古代文学教学的质量和效果。
- 赵阳顾磊
- 关键词:古籍数字化古代文学教学