陈光英
- 作品数:9 被引量:146H指数:3
- 供职机构:清华大学信息科学技术学院信息网络工程研究中心更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 中英文搜索引擎分词预处理设计与实现
- 该论文在充分利用访问记录文件信息的基础上?设计了基于词典的分词系统.词典的词汇量超过6.3万,记录了汉语基本词汇和两个内'网络指南针系统'用户查询输入的大部分新词.词典采用二级查询结构.第一级利用汉字内码的连续性计算汉字...
- 陈光英
- 关键词:中文分词词典结构相关度搜索引擎预处理
- 文献传递
- 基于演化支持向量机的入侵检测理论与应用研究
- 入侵检测是网络安全模型中的重要环节,需要解决一些问题:小样本情况下的推广能力,攻击特征提取质量有限,检测新攻击和更新样本时重新训练等问题。本文分析了传统的入侵检测技术的优缺点如误用检测和异常检测分别属于过学习和欠学习现象...
- 陈光英
- 关键词:支持向量机入侵检测网络安全检测器
- SpamAssassin中文规则研究及实践
- SpamAssassin 是垃圾邮件过滤技术最为典型而广泛的应用平台,它通过邮件特征信息分析和基于规则的过滤方法消灭垃圾邮件。利用 SpamAssassin 过滤中文垃圾邮件时,过滤效果依赖于中文规则的数目以及过滤规则的...
- 孙东红陈光英刘勇段海新
- 关键词:垃圾邮件
- 文献传递
- 基于PATRICIA tree的汉语自动分词词典机制被引量:42
- 2001年
- 分词词典是汉语信息处理系统的一个基本组成部分 ,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIAtree的数据结构 ,设计了一种可以对词典词条进行快速查询、更新的分词词典机制 ,并从理论上初步分析了它的性能。最后通过实验 ,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明 ,基于PATRICIAtree的分词词典机制具有更高的查询速度和更新效率 ,能满足大规模、开放文本处理系统的需求。
- 杨文峰陈光英李星
- 关键词:信息检索TREE汉语自动分词信息处理
- 特征选择和SVM训练模型的联合优化被引量:26
- 2004年
- 提出了特征选择和支持向量机(SVM)训练模型的联合优化方法,利用特征选择和训练模型的互相依赖关系来提高SVM性能。该方法包括3个关键技术:优化目标是提高SVM性能,它是由ξα-estimate方法计算出来的;用一个二进制向量表示特征选择,用混合核函数和折中控制参数来表示训练模型;用演化算法来求解联合优化问题。通过使用入侵检测标准数据,比较了联合优化、单独优化和分开优化方法以及遗传算法(GA)和粒子群优化算法(PSO)的使用效果。结果表明:联合优化方法能更好地提高SVM性能,并且收敛速度更快;GA的效果比PSO要好。
- 陈光英张千里李星
- 关键词:支持向量机人工神经网络混合核函数粒子群优化
- 基于VMware虚拟机的网络安全实验床
- 网络安全实验床是研究网络安全所需要的一个重要平台,简单介绍VMware虚拟机,并说明它在网络安全研究中的实际应用价值,其中重点介绍了使用VMware虚拟机设计和实现网络安全实验床的方法,VMware虚拟集的子系统上安装多...
- 陈光英张千里李星
- 关键词:安全防护入侵检测VMWARE虚拟机
- 文献传递
- 基于SVM分类机的入侵检测系统被引量:76
- 2002年
- 本文设计并实现了一种基于SVM分类机的入侵检测系统。它收集并计算除服务器端口之外TCP/IP的流量特征,使用SVM算法进行分类,从而识别出该连接的服务类型,通过与该连接服务器端口所表明服务类型的比较,检测出异常的TCP连接。在此基础上,本文深入探讨了TCP连接的观察时间、所取特征数目和SVM的核函数的选取对检测效果的影响。实验结果表明,本系统能够有效地检测出异常TCP连接。
- 陈光英张千里李星
- 关键词:入侵检测系统计算机网络网络安全
- 基于用户反馈和增量学习的垃圾邮件识别方法被引量:2
- 2006年
- 为了提高垃圾邮件识别的准确度,减少识别中的错判,提出了一种交互式垃圾邮件识别方法。该方法用一组具有特定权重的规则识别垃圾邮件,规则权重分布用改进遗传算法训练得到。增加用户与服务器间的交互,收集用户反馈的错判信息,根据反馈信息用增量学习动态调整规则权重。通过对SpamA ssass in扩展实现了该方法,并应用在邮件服务器上进行了测试。实验中在不影响垃圾邮件识别率的前提下,降低误判率约10%。实验结果表明:该方法不但能有效减少识别中的误判,而且避免了繁琐的重新训练,加快了规则权重的更新速度。
- 王鑫陈光英段海新李学农
- 关键词:模式识别电子邮件垃圾邮件识别改进遗传算法用户反馈
- 异常检测中查全率和查准率的控制
- 2004年
- 在使用支持向量机分类技术的异常检测系统中,提出控制查全率和查准率的方法.该方法采用遗传算法优化特征选择和训练模型,其中染色体由特征选择和训练模型组成,适应度是用ξα-estimate方法计算的查全率和查准率的组合,通过设置其中一个参数η达到控制查全率和查准率的目的.实验中采用异常检测标准数据分析该方法的使用效果,结果表明随着η增大,查全率也增大,而查准率却减小,使得用户可以通过设置η的值控制查全率和查准率.
- 陈光英张千里李星
- 关键词:支持向量机查全率查准率