黄锦辉
- 作品数:16 被引量:132H指数:6
- 供职机构:香港中文大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 中文网络聊天语言的奇异性与动态性研究被引量:8
- 2007年
- 随着互联网走入社会生活,网络聊天逐渐成为一种新的沟通渠道,网络聊天语言便应运而生。这类语言的日益丰富,给语言信息处理带来了新的挑战。研究发现,困难主要来自网络聊天语言的奇异性和动态性。本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并设计了面向解决奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源?信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源?信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。
- 夏云庆黄锦辉张普
- 关键词:计算机应用中文信息处理奇异性动态性语言信息处理
- 语言转换系统及方法
- 公开了一种用于将正规语言转换为非正规语言的转换系统及其方法,所述系统包括分割模块、非正规语言词典模块和转换模块,其中,所述分割模块用于将正规语言分割为一个或多个单元,并将所述分割的单元输入所述转换模块;所述转换模块通过搜...
- 黄锦辉夏云庆
- 文献传递
- 对数字图像曝光不足的缺陷进行自动修正的方法和系统
- 本发明提供一种对数字图像曝光不足等缺陷进行自动修正的方法,包括:根据图像中的像素点亮度值,检测图像中高亮度区是否存在预定数量的连续亮度值像素点;如果存在预定数量的连续亮度值像素点,则判断图像曝光充分,否则进一步检测图像中...
- 黄锦辉汤晓鸥何应辉梁国耀朱凯颂
- 文献传递
- 开发商业智能应用 小心大数据“陷阱”被引量:2
- 2017年
- 大数据的应用和研究是信息爆炸时代的热点话题。就如何更智能地发现大数据中的有用信息展开讨论,探讨了大数据中的"陷阱"和其引发的社会危害,提出一种面向社交文本的智能应用系统,以有效规避大数据中的"陷阱"并自动提取有用信息;基于提到的框架,展示了笔者研究组近些年在社交媒体上的事件检测、自动摘要和谣言检测方面的研究成果。
- 黄锦辉
- 关键词:大数据自然语言处理社交媒体数据处理
- 结合表示学习和迁移学习的跨领域情感分类被引量:8
- 2019年
- 针对现有跨领域情感分类方法中文本表示特征忽略了重要单词与句子的情感信息,且在迁移过程中存在负面迁移的问题,提出一种将文本表示学习与迁移学习算法相结合的跨领域情感分类方法。首先,利用低维稠密的词向量对文本进行初始化,通过分层注意力网络,对文本中重要单词与句子的情感信息进行建模,从而学习源领域与目标领域的文档级分布式表示。随后,采用类噪声估计方法,对源领域中的迁移数据进行检测,剔除负面迁移样例,挑选高质量样例来扩充目标领域的训练集。最后,训练支持向量机对目标领域文本进行情感分类。在大规模公开数据集上进行的两个实验结果表明,与基准方法相比,所提方法的均方根误差分别降低1.5%和1.0%,说明该方法可以有效地提高跨领域情感分类性能。
- 廖祥文吴晓静桂林黄锦辉黄锦辉
- 关键词:情感分类
- 半结构数据的非精确结构提取
- 自描述的半结构数据模型中没有明显的模式信息,而缺乏模式信息造成用户生成查询和系统优化查询等方面的困难.适应于半结构数据的不规则性和动态性,本文提出用一种概念聚类方法提取出原数据集中的粗略模式信息.它是原数据图的结构缩略,...
- 王秋月黄锦辉于旭郑进雄
- 关键词:半结构数据概念聚类
- 文献传递
- 一种中文数据库查询语言的设计思想及其实现方法被引量:3
- 1997年
- 本文提出一种中文数据库查询语言的设计思想及其实现方法。它使用户能容易、自然地执行数据的查询处理。该语言具有操作简单的特点。
- 郑跃斌林耀森黄锦辉
- 关键词:数据库查询语言中文数据库SQL语言
- 中文金融新闻中公司名的识别被引量:77
- 2002年
- 在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。
- 王宁葛瑞芳苑春法黄锦辉李文捷
- 关键词:金融领域专名识别信息抽取金融新闻
- 中文聊天语言的奇异性与动态性研究
- 根据中国互联网络信息中心(CNNIC)的统计,到2005年4月底,我国上网用户已经突破1亿,达到1.002亿人,网民数仅次于美国居世界第二位。今天,每13个中国人就有一个与它“亲密接触”,互联网正在成为各界人士获取信息的...
- 黄锦辉夏云庆
- 文献传递
- 基于情感时间序列的微博热点主题检测被引量:4
- 2015年
- 随着互联网的蓬勃发展,微博在信息传播过程中扮演着非常重要的角色,正逐渐演变成一种新型线上交流新闻源.人们已经习惯于通过微博平台来了解他们身边的朋友或家人在做什么,关心这个世界正在发生什么.然而,由于微博平台蕴含着海量信息,很难以人工的方式在微博上快速检测当前实时发生的重大新闻或突发事件.因此,面向微博的热点主题检测成为当下的一个研究热点.然而,现有研究主要侧重于主题识别而忽略了用户对于实时性的要求,少数针对实时热点主题发现的方法主要基于关键词的统计分析,实时性和准确率都有待提高.根据我们的观察发现,微博平台汇集了成千上万的观点与意见,包括对社会事件的讨论、对产品的评价等,这些观点使得微博成为一个非常有价值的观点意见数据源.通过分析观点与情感的实时变化,我们可以更好地了解相关主题的变化趋势,从而辅助用户判定其是否是流行的热点主题.本文结合微博的情感时序变化提出了一种实时的非参数化的热点主题检测方法.该方法通过对微博情感极性分析及其强度变化来计算情感时序分布,并利用上述特征构建一个复合模型以识别、检测微博热点主题.实验分别在Twitter和新浪微博等真实数据集上进行,结果表明我们提出的方法能够在保证检测准确率的前提下更快地识别热点话题.
- 李斌阳韩旭彭宝霖李菁王腾蛟黄锦辉
- 关键词:情感分析热点主题实时检测