陈永杰
- 作品数:3 被引量:19H指数:3
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 适用于医疗卫生领域的中文分词方法研究被引量:3
- 2017年
- 目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大。
- 于清陈永杰丁岩
- 关键词:中文分词语料库
- 一种基于Aho-Corasick算法改进的多模式匹配算法被引量:14
- 2019年
- 目前互联网中以文本存在的数据非常庞大,针对在如此庞大的文本中如何准确、快速地找到多个不同的目标字符串的问题,在介绍常见的模式匹配算法的优点和缺点基础上,结合Trie速多模式匹配算法。根据对比性实验的结果分析得出,改进AC且匹配速度大约是AC算法的5倍。
- 陈永杰吾守尔.斯拉木于清
- 关键词:字符串匹配多模式匹配TRIE树
- 汉维医疗平行语料库构建及特征分析被引量:3
- 2017年
- 面对稀缺、专业性强的汉维双语医疗平行语料库建设,本文探索数据采集、标准化、去噪、自动录入方法,进行语料库特征分析,并根据语料数据特性,设计语料库网页检索系统.目前已建成110多万字、2.6万句汉语医疗语料和3 000句对汉维双语对齐语料,不仅对构建中小型语料库有参考价值,而且奠定了医疗自然语言处理研究基础,尤其汉维双语对齐语料,将促进机器翻译技术在医疗领域突破,对新疆边远地区无汉语表达能力的少数民族群众获得医疗救助搭建桥梁.
- 于清孙浩男陈永杰