欧阳为民 作品数:9 被引量:47 H指数:4 供职机构: 上海大学计算机工程与科学学院 更多>> 相关领域: 自动化与计算机技术 更多>>
智能交通数据分析系统的设计与实现 被引量:5 2005年 智能交通系统已经成为21世纪交通运输体系的发展趋势,其实质是对交通信息的分析、共享和综合利用。通过对智能交通系统采集的初始交通信息进行预处理可以为智能交通系统中数据分析的正确性和可靠性提供保证。本文在分析采集自上海市交通路口的交通数据的基础上,对交通数据的预处理和数据恢复、路段拥塞程度分析进行了探讨,并在此基础上提出了一套进行交通数据处理和分析的计算机平台实现方案。 徐春荣 欧阳为民 勾海波 吴师鹏关键词:数据分析 数据预处理 饱和度 系统设计 基于图的数据挖掘在入侵检测系统中的应用 被引量:1 2005年 网络入侵检测系统(IDS)是保障网络安全的有效手段,但目前的入侵检测系统仍不能有效识别新型攻击。根据国内外最新的图数据挖掘理论,设计一个特征子图挖掘算法,并将其应用到入侵检测系统中。该算法挖掘出正常的特征子结构,与之偏离的子结构为异常结构。实验结果表明,该系统在识别新型攻击上具有较高检测率。 吴师鹏 欧阳为民 陈宁宇 徐春荣关键词:数据挖掘 网络安全 入侵检测 搜索引擎查询日志中的聚类算法研究 被引量:4 2007年 近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比。 勾海波 欧阳为民 徐春荣关键词:网络数据挖掘 基于数据挖掘的自适应异常分析 被引量:4 2007年 正常用户行为活动是随时间变化的,一个异常分析系统要能适应这种变化更新正常行为模型,避免误报警。对增量更新算法进行了研究,使用线性回归的方法对相似度进行估计,如果实际相似度与估计值差值大于某个阈值,则产生报警;否则采用改进的滑动窗增量挖掘的方法,更新正常活动模型。并用DARPA-MIT 1999数据集验证其可行性。 祝万涛 欧阳为民 辛洪亮关键词:异常检测 自适应 数据挖掘 关联规则 Web文本分类及其阻塞减少策略 被引量:2 2007年 W eb挖掘中,根据内容对W eb文档进行分类是至关重要的一步。在W eb文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别。然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞)。针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善W eb文档分类中文档被错误阻塞的情况。 徐春荣 欧阳为民 勾海波关键词:数据挖掘 WEB挖掘 基于隐Markov模型的文本分类 被引量:5 2007年 把基于序列模型的隐Markov模型引入文本分类领域。把待分类文本描述成一系列状态演化的隐Markov过程,其中状态以特定的概率产生代表文本的特征项。用序列模式来描述文本类,文本序列通过与隐Markov模型的匹配,求出其对应状态序列和最大输出概率。比较各个文本类的结果,达到文本分类的目的。最后通过和简单向量算法,KNN,Naive Bayes分类算法的比较,说明本算法的在文本分类中的成功应用。 罗双虎 欧阳为民关键词:文本分类 面向审计的严格约束的序列挖掘算法 被引量:2 2006年 网络安全审计数据具有很强的时间特征。提出了面向审计基于SPAD算法的严格约束的序列挖掘快速算法(Sequence mIning with Strict Constraints,SISC),它充分利用了序列数据的时间和属性相关的特征指导挖掘,并使用严格的属性模式裁减概念等价类,提高了规则的有用度。最后在真实的审计数据集上的试验结果表明,SISC的效率优于SPADE,尤其当项的个数远大于属性的个数的时候。 辛鸿亮 欧阳为民 祝万涛关键词:数据挖掘 安全审计 概念格 一种基于划分的动态聚类算法 被引量:22 2005年 聚类分析是数据挖掘的一个重要研究分支,已经提出了许多聚类算法,划分方法是其中之一。划分方法的缺点是要求事先给定聚类结果数,对初始划分和输入顺序敏感等。为克服这些缺陷,以划分方法为基础,提出了一种基于划分的动态聚类算法。该算法按密度从大到小,依距离选择较为分散的初始值,同时可以过滤噪声数据,并在聚类的过程中动态地改变聚类结果数,改善了聚类质量,获得了更自然的结果。 万志华 欧阳为民 张平庸关键词:聚类分析 数据挖掘 K-MEANS 基于密度的购物篮数据聚类方法 被引量:2 2005年 在现有的算法DBSCAN基础上,提出一种基于密度的处理购物篮事务数据的聚类方法-DCMBD(density-based clustering for market basket data)。使用了一种新的事务表示法,解决了购物篮数据的高维性和稀疏性问题。并对算法进行 了相应的改进,从而提高了聚类速度。实验结果表明此方法是有效可行的。 张平庸 欧阳为民 万志华关键词:聚类 数据挖掘