广东省粤港关键领域重点突破项目(2005A10207003)
- 作品数:5 被引量:40H指数:3
- 相关作者:李军义唐歆瑜陈治平王雷李秀芳更多>>
- 相关机构:信息技术有限公司湖南大学长沙航空职业技术学院更多>>
- 发文基金:广东省粤港关键领域重点突破项目湖南省科技计划项目福建省农科院青年科技人才创新基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于知网语义相似度计算的特征降维方法研究被引量:21
- 2006年
- 针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法。通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小。将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数。实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能。
- 唐歆瑜乐文忠李志成李军义
- 关键词:特征降维文本分类知网
- 基于密度梯度的聚类算法研究被引量:11
- 2006年
- 针对聚类中不规格形状数据点分布的处理难题,提出了一种基于密度梯度的聚类算法(CDG)。算法通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。实验结果表明,新算法较基于密度的带噪声数据应用的空间聚类方法(DBSCAN)具有更好的聚类性能。
- 陈治平王雷李志成
- 关键词:聚类数据挖掘
- 基于数据聚合的无线传感器网络多径路由算法研究被引量:1
- 2006年
- 由于传感器网络具有严格的资源限制、低速数据传输率及多对一的通信模式等独特的特征,传统用于无线移动自主网Ad-hoc的路由协议通常不能直接应用于该类网络;尤其是针对节点数目庞大的传感网,要处理的传感数据量大,在设计路由算法时必须保证其能效较高、能耗及负载均衡,以最大限度地延长整个网络的生命周期。结合数据中心及多路径路由特征,提出了一种基于数据聚合的多径路由算法。新算法不仅能在路由过程中实现能耗及负载均衡,而且能有效地消除数据冗余。理论分析和实验表明,该算法在节省能耗等方面具有一定的优势。
- 李羿李军义黄铎
- 关键词:无线传感器网络数据聚合多径路由
- 基于知识积累方法的垃圾邮件过滤算法被引量:2
- 2007年
- 由于垃圾邮件类型的不断变化,超出现有过滤算法模型中所采用的训练样本范围,造成过滤性能不断下降。因此,提出了一种基于知识积累方法的垃圾邮件过滤算法。利用KNN方法的惰性学习机制,将新型的垃圾邮件动态加入训练样本集中,以实现知识的不断积累过程。在此基础上,应用KNN方法对未知邮件样本进行精确匹配,以排除合法邮件的误判结果。实验表明算法具有较好的过滤性能。
- 王毅谢治华梁国彪
- 关键词:支持向量机朴素贝叶斯K近邻
- 基于数据挖掘的聚类算法研究被引量:5
- 2006年
- 随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。
- 李秀芳李志成
- 关键词:聚类数据挖掘支持向量聚类