国家社会科学基金(11BYY051)
- 作品数:9 被引量:22H指数:4
- 相关作者:熊文新赵秀花梁茂成更多>>
- 相关机构:北京外国语大学新疆大学更多>>
- 发文基金:国家社会科学基金教育部“新世纪优秀人才支持计划”教育部人文社会科学研究基金更多>>
- 相关领域:语言文字自动化与计算机技术文化科学更多>>
- 英语特异组合及其在外语教学上的验证
- 2015年
- 从双语对比视角出发,依据"平行(语法模式一致)"和"不对应(构成成分不能直译)"的原则,本文界定了英语"特异组合",基于各类语言资源的综合利用,提出一个发现英语特异组合的可操作性强的方法,以"V+N"构成的VO特异组合为例,介绍了该方法的实施过程。以某外语院校非英语专业本科一年级学生和英语专业在读硕士各30名作为受试,测试其对特异组合产出性知识的掌握情况,实验结果表明,不同层次的受试在特异组合的掌握方面没有显著差异,进而说明特异组合的掌握与英语学习的水平并非同步发展。特异组合对不同平等级的英语学习者都是难点,应成为词汇教学的重点。
- 熊文新赵秀花
- 关键词:语言学习语料库翻译测试
- 汉语真需要词间空格吗——对汉语分词连写献疑被引量:4
- 2014年
- 汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语"切分单位"的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。
- 熊文新
- 关键词:汉语分词语言规划
- 基于语料库及对应词表的英语特异组合发现方法被引量:5
- 2013年
- 语料库语言学研究搭配多从单语视角出发,利用统计方法,计算真实文本中词语与其他词语的共现强度。一些语言学家从双语对比和二语学习的角度,提出以目的语中是否存在可预测的对应词作为区分自由结合与搭配的依据。本文采取后者的视角,利用前者的方法,提出"平行(语法模式一致)"和"不对应(构成成分不能直译)"的原则界定英语"特异组合",并提出一项发现特异组合的可操作性强的方法。该方法采用双语对应词表及词语语义知识库、各类语料库(英、汉单语语料、英汉平行语料库)以及浅层语法分析工具,通过一系列步骤,能够有效发现中国学生难以学习和掌握的特异组合。
- 熊文新梁茂成赵秀花
- 关键词:语料库对应词对比语言学
- 借助汉语以义索词的英语用法检索
- 2014年
- 有了一定的表达意图却找不到合适的英语表述方式,是中国学生经常面临的问题。借助句对齐的英汉平行语料库,能够从汉语出发检索出与之对应的英语实例。然而当前基于语言形式的语料库检索,其检索结果必须与用户输入的特定检索项匹配。为尽可能全面准确地获取地道的英语表述,本文借鉴信息检索的查询扩展策略,利用同义词词林等语义资源,介绍一种基于汉语同义表述的意义检索,在检索过程同时利用浅层语法分析,使检索精度得以保证。
- 熊文新
- 关键词:词汇语义双语语料库
- 与自然语言查询表述相关的词语分析被引量:1
- 2012年
- 考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。
- 熊文新
- 关键词:查询语句检索项语料库信息检索
- 我国直辖市政府机构网站域名规范化探究
- 2018年
- 对我国直辖市政府机构的网站域名使用情况进行调查,发现域名主体命名的规律,并提出规范化的域名设置方案。选取四个直辖市政府门户网站列出的市直机构网站域名193个,重点考察其域名主体语言的选用、域名主体的构成规则和域名层级性体现等三方面的属性,对这些域名主体进行特征标注,并据此实施统计分析。我国直辖市内部各机构域名主体和不同城市同一机构的域名主体设置都不一致,并提出一个方便民众理解和记忆的新域名主体的设置方案,即以机构名汉语拼音首字母缩略形式并采用二级域名'○○○.□□□.gov.cn'结构的地方政府机构网站域名。调查范围只限于四大直辖市和官方门户网站所列出的机构域名,今后可进行更大范围的调查。
- 赵羚熊文新
- 关键词:网站域名
- 国外语言生活动态、趋势和成因探析
- 2015年
- 语言生活状况是语言实践活动的体现。通过对一个国家语言生活状况的描绘,可以考察该国国民的语言意识形态和国家语言政策的发展。本文利用信息检索技术采集国外主流媒体有关语言生活事件的新闻报道,从语言立法、语言服务和语言发展三个方面,简要刻画国外语言生活状况,并尝试从国家组织的语言政策、社会和民间组织的语言意识形态和国际组织的干预等角度,阐述语言政策异动的变因。
- 熊文新
- 关键词:语言生活语言政策语言服务语言选择
- Web、语料库与双语平行语料库的建设被引量:8
- 2013年
- 对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。
- 熊文新
- 关键词:WEB语料库双语平行语料库语言资源
- 英汉环保领域平行语料的句对齐与再对齐被引量:4
- 2013年
- 从资源建设角度对现有基于统计的句对齐工具进行用户易用性及性能比较,认为Champollion比较适合英汉双语句对齐处理。借鉴"基于转换错误驱动"的思路,对Champollion对齐错误结果利用语言学规则实施再对齐,使句对齐效果进一步提升。以英汉环保领域专业文本为例,句对齐的准确率从最初的88.74%上升至93.91%。这种结合基于统计对齐工具和语言学知识应用的对齐和再对齐处理方法在"分步骤按领域"建设大规模双语语料库的过程中具有普适性。
- 熊文新
- 关键词:英汉平行语料库