天津市信息化项目(042023012)
- 作品数:3 被引量:15H指数:2
- 相关作者:张建忠何云杨洁申庆永田泽更多>>
- 相关机构:南开大学更多>>
- 发文基金:天津市信息化项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Milter实现的中文垃圾邮件过滤系统
- 2007年
- 提出一种基于内容的中文垃圾邮件实时过滤系统的实现方案,该系统建立在Linux的Sendmail邮件服务器上,通过Milter接口实时提取邮件内容,并结合中文分词及文本分类算法对邮件实施分类和过滤。该系统可嵌入多种文本分类算法,具有良好的可扩展性。通过测试对该系统内嵌入的不同分类算法模型进行了分析和比较。
- 杨洁张建忠申庆永何云
- 关键词:邮件分类中文分词贝叶斯算法K近邻算法
- 基于改进K近邻的垃圾邮件过滤技术被引量:11
- 2007年
- 提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。
- 田泽颜松远徐敬东
- 关键词:文本分类邮件过滤
- 中文垃圾邮件过滤系统中的实时分词算法设计被引量:4
- 2007年
- 在基于内容的中文反垃圾邮件技术中,中文分词是必不可少的一个环节。面对大规模的邮件训练样本和大负载的邮件服务器,中文分词算法的时间效率成为中文垃圾邮件过滤技术中的一个瓶颈。对此,提出一种应用在中文垃圾邮件过滤系统中的实时分词算法。该算法采用一种TRIE树型结构作为词典载体并基于最大匹配的原则,同时,在实时分类阶段结合hash表进行特征查询,极大地提高了系统的时间效率。
- 申庆永张建忠何云杨洁
- 关键词:中文分词垃圾邮件TRIE树