张晶星
- 作品数:2 被引量:4H指数:1
- 供职机构:武汉大学计算机学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文深层网络的模式匹配和接口集成
- 2012年
- 目前国内外在深层网络方面的研究几乎都围绕英文环境进行,还没有针对中文深层网络的研究.提出了对中文深层网络进行模式匹配和接口集成的方法.该方法首先创建一个用来存储同义词、超义词和子义词的字典,然后使用基于规则的分词算法将从接口中抽取的属性分成词.对于每一个属性,从定义的字典中找到其对应的所有同义词、超义词和子义词,生成一条相应的记录并存储到列表中,再从每条记录中选取出现次数最多的属性作为联合接口的属性.
- 张晶星
- 关键词:分词算法词典接口集成
- 基于Hadoop的改进决策树剪枝算法被引量:4
- 2016年
- 针对当前决策树剪枝算法较少考虑训练集嘈杂度对模型的影响,以及传统驻留内存分类算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率误差剪枝算法(IEP),并将其应用在C4.5算法中。在剪枝时,认为用于建树的训练集是嘈杂的,通过将基于不确定概率误差分类数作为剪枝选择依据,减少训练集不可靠对模型的影响。在Hadoop平台下,通过将C4.5-IEP算法以文件分裂的方式进行MapReduce程序设计,增强处理大规模数据的能力,具有较好的可扩展性。
- 张晶星李石君
- 关键词:剪枝算法HADOOP并行化