邹嘉彦
- 作品数:25 被引量:572H指数:10
- 供职机构:香港城市大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划香港特区政府研究资助局资助项目更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 评述新闻报道或文章色彩-正负两极性自动分类的研究
- 任何一篇报道文章的作者对有关事情或人物都不免带有或多或少的正面或负面评述色彩,举简单的例子来说,把同样情况说成[节俭]或[吝啬],把[半杯酒]说成[半杯满酒]或[半杯空酒],或把同样的组织形容成[恐怖分子]或[自由战士]...
- 邹嘉彦
- 关键词:自动文本分类
- 文献传递
- 利用上下文信息解决汉语自动分词中的组合型歧义被引量:43
- 2001年
- 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
- 肖云孙茂松邹嘉彦
- 关键词:自然语言处理汉语自动分词中文信息处理
- 基于无指导学习策略的无词表条件下的汉语自动分词被引量:65
- 2004年
- 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
- 孙茂松肖明邹嘉彦
- 关键词:无指导学习汉语自动分词互信息统计量
- 汉语专名的初步研究
- 专名对于自然语言处理有重要意义.本文对专名进行了界定,提出了汉语专名的特点,讨论了这些特点在信息量表示、词语聚类、专名识别方面的应用.
- 宋柔邹嘉彦
- 文献传递
- 汉语新词与流行语的采录和界定被引量:28
- 2008年
- 新词和流行语是语言研究的一个热点。新词的采录和界定,应该以具有连续性和惯常性的语料库作基础,因为它具有时间、空间、频量的依据,可大大提高研究成果的科学性和准确性。采录新词时,则应注意其地区性、时间性、广用性、频用性和稳定性,尤其是地区词、流行语、网络用语、字母词等,须在客观原则下经细心甄选和鉴定,才能赋予现代汉语新词语的资格,使其不与"新词语"相混淆。
- 邹嘉彦游汝杰
- 关键词:新词流行语词典
- 从大数据库比较港沪两地“车”和“笔”类词的衍生和发展被引量:1
- 2021年
- 近50年来,因社会环境和语言政策不同,港沪两地的语言呈现出不同的发展趋势。本文着重探讨两地语言的四个具体课题:(1)核心词的门槛,(2)文化词汇"车"和"笔"类词,(3)不同地区语言的互懂度,(4)语言和文化对比和对称情况。词汇量与阅读能力息息相关,3000高频词是阅读各华语地区报章70%到80%内容的最低要求,即"门槛"。但若要看懂其他地区报章中同样的内容,需要更多的词汇。本文还比较研究"车"和"笔"两类词从上世纪90年代到本世纪初期十年之间,在港沪两地发展的差别。并进一步探讨两地语言间的可懂度,认为影响可懂度的参数并不是单一的。从此及彼,从彼及此,比较方向不同,结果也不同,并可引发对社会、文化与语言之间互动的更多思考。
- 邹嘉彦游汝杰
- 关键词:词汇发展社会语言学文化语言学核心词词频
- 利用汉字二元语法关系解决汉语自动分词中的交集型歧义被引量:119
- 1997年
- 本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90.
- 孙茂松黄昌宁黄昌宁陆方邹嘉彦
- 关键词:汉语自动分词计算机语言学
- 汉语(五地)与日语新概念词语对比研究──从新闻视窗看词汇衍生与重整被引量:6
- 2000年
- 中国自鸦片战争以来,日本自明治维新以来,随着东西方文化的交流,外来语 (主要指来自英语与其他语言)一直不断增加,这些词在当时或是音译或是意译,都 已载入了史册,留下了各自的足迹。到了第二次世界大战后,在日本、香港、台湾等 地又有大量的新外来语涌入,及后八十年代,中国大陆也同样新词大量增加。在这 个新旧重叠的历史过程中,有相当多的外来词已经通过吸收、过滤、淘汰、调整等, 在汉语、日语中逐渐定形;但是有的词却仍呈现出新的定向趋势。这种吸收、过滤、 调整直至定形的过程可以称之为“词汇重整”;( re-lexification),我们认为词汇重整也 是新词衍生的一种途径。 本文就是看重于中日外来概念词的现状,探究其词汇衍生情况和重整走向。 从方法上,我们构想了一个“视窗”的架构,取一定时段内共时性的中日报章语料作 为一个新闻“视窗”,以中文(包括香港、澳门、上海、台湾、新加坡五地)与日文视窗 中有关交通工具“车”类词为看眼点,详细考查了中日双方(中文又涉及五个地区) 的相同和相升之处片目互的可懂度以及在词汇重整中所反映出的差弄等等。并提 出了中日双方及中文工地之间存在看可懂度的不平衡、在词汇重整中的所反映出 的“向心力”不同。
- 邹嘉彦冯良珍
- 关键词:日语汉语外来语
- 汉语共时语料库与追踪语料库:语料库语言学的新方向被引量:7
- 2011年
- 随着信息技术的不断提升、互联网的普及,汉语自然语言处理的难题不断得到解决,汉语语料库的发展和语料库语言学的应用也面临着新的契机。如何持续充分应用庞大的多种语料库,并协同与配合语言学和人文、社会科学多个领域,来追踪了解各种语言现象及其背后的社会文化深层含义,是语料库语言学可以承担的新任务。LIVAC汉语共时语料库持续处理和分析泛华语七个地区十七年四亿字的语料,可真正起到"时间锦囊"的作用,为紧密追踪、科学观察泛华地区语言现象及有关社会文化演变,提供了坚实的基础和科学依据。该文介绍LIVAC如何由汉语"共时语料库"演变为"追踪语料库"。
- 邹嘉彦邝蔼儿路斌蔡永富
- 关键词:语料库语言学
- “三言”“两语”说香港被引量:5
- 1997年
- “三言”“两语”说香港[香港城市大学]邹嘉彦一前言香港自开埠以来已有一个半世纪。鸦片战争以后,英国对香港实行了长期的殖民统治。1858年清廷与英廷签订了《天津条约》,其中的有关条款对后来香港社会与语言的发展起了决定性的作用。条约规定了中英两种语言在...
- 邹嘉彦
- 关键词:语言转移粤方言香港社会官方语言闽南方言