广东省高等学校自然科学研究重点项目(06Z012)
- 作品数:17 被引量:130H指数:6
- 相关作者:蒋盛益李霞张黎莎庞观松王连喜更多>>
- 相关机构:广东外语外贸大学中国人民解放军南昌陆军学院广东科贸职业学院更多>>
- 发文基金:广东省高等学校自然科学研究重点项目国家自然科学基金广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理文化科学电子电信更多>>
- 基于特征相关性的特征选择被引量:16
- 2010年
- 提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作为最终的特征子集。理论分析表明该方法的运算效率高,时间复杂度低,适合于大规模数据集中的特征选择。在UCI数据集上与文献中的经典方法进行实验比较和分析,结果显示提出的特征选择方法在特征约减和分类等方面具有更好的性能。
- 蒋盛益王连喜
- 关键词:相关度特征聚类
- 一种门限多代理多签名方案的内部攻击
- 2009年
- 目前,门限多代理多签名凭借其具有多种特殊功能而受到广泛关注。迄今为止,人们已经提出了许多门限多代理多签名方案,但大部分方案都存在缺陷。Tzeng等提出了一个具有共享验证性质的门限多代理多签名方案。后来,Kang等指出Tzeng方案存在缺陷并提出了一个新的方案。但Kang方案仍然存在缺陷,即Kang方案不能抵抗恶意的内部人员实施的伪造攻击,由此攻击造成严重的后果。在分析攻击原因的基础上于是提出了一个改进措施。
- 李霞杨长海
- 关键词:数字签名代理签名
- Chameleon算法的改进被引量:11
- 2010年
- 结合Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进Chameleon算法,使之可以处理含分类属性的数据;进而提出一种两阶段聚类算法.第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用改进的Chameleon算法归并初始划分而得到最终聚类.在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的.
- 蒋盛益庞观松张黎莎
- 一种近似等频离散化方法被引量:4
- 2009年
- 在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化.由于正态分布的广泛性,本文提出一种基于正态分布的近似等频离散化方法.该方法实现简单,关于数据集大小具有线性时间复杂度,适用于大规模数据集.在许多数据集上与文献中多个离散化方法进行了对比测试,实验结果表明,提出的无指导的离散化方法是有效、可行的.
- 蒋盛益李霞郑琪
- 关键词:离散化
- 基于聚类和Ripper的稀有类分类方法被引量:2
- 2009年
- 稀有类分类在许多领域有重要应用,针对稀有类在数据中所占比例少,容易被忽略的特点,提出一种基于聚类和Ripper的稀有类分类方法,该方法在一趟聚类的结果中,通过将在整个数据集中所占的比例低于15%的聚类标识为少数类,再应用Ripper分类算法分别对少数类和多数类分别进行分类建模,并按照一定的组合方式调整得出整个数据集的最终规则集.在UCI数据集上的测试结果表明,基于一趟聚类和Ripper的稀有类分类方法对稀有类可产生高质量的分类效果.可以将该方法应用于现实生活的领域中进行稀有数据的分类.
- 余雯蒋盛益黄兴全
- 关键词:数据挖掘
- 面向分类特征的无监督特征选择方法研究被引量:5
- 2011年
- 针对分类特征数据给出一种新的特征重要性程度度量方法.以一趟聚类算法为基础,提出一种无监督特征选择方法.理论分析表明该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择.在UC I数据集上的实验结果表明,与文献中的经典方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效可行的.
- 王连喜蒋盛益
- 音乐情感自动分析研究被引量:10
- 2010年
- 音乐情感自动分析在音乐检索和音乐推荐等方面具有广泛的应用。对3种音乐情感模型进行了对比分析,介绍了音乐情感分类方法,并指出已有研究存在的不足。音乐分割与摘要是高效音乐浏览与推荐的基础,在对音乐分割与摘要方法进行分析的基础上,指出了定长分割策略的不足;借助音乐相似性与情感可视化实现音乐推荐,对音乐相似性度量与可视化方法进行了概述。最后,展望了对音乐情感自动分析的研究方向。
- 蒋盛益李霞李碧王连喜
- 关键词:音乐情感情感识别情感模型音乐检索
- 个性化跨语言学术搜索技术研究被引量:4
- 2011年
- 学术搜索引擎是一种行业化的搜索引擎,但因其缺乏个性化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本文使用Google翻译,研究基于机器翻译的中、英、俄、法和西班牙等五个语种跨语言学术检索。在跨语言学术搜索的基础上研究个性化检索技术,提出一种基于聚类的个性化信息检索方法:通过观察用户对搜索结果聚类的点击行为,生成并更新用户实时兴趣模型,采用余弦夹角公式计算用户实时兴趣模型与搜索返回结果的相似度,根据相似度大小,为用户提供个性化重排序的搜索返回结果。实验结果证明了提出方法的有效性。
- 庞观松张黎莎蒋盛益
- 关键词:跨语言信息检索个性化信息检索学术搜索
- Web搜索结果多层聚类方法研究被引量:1
- 2011年
- 为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。
- 庞观松蒋盛益张黎莎区雄发赖旭明
- 关键词:文本聚类加权函数
- 概率后缀树在入侵检测中的应用研究被引量:3
- 2010年
- 系统调用序列能够反映系统进程的行为特征。而系统调用序列中每个调用的出现都与它之前出现的若干个调用相关。因此可以利用概率后缀树(PST)对系统调用序列建模,反映系统调用基于上下文的概率特性。提出了系统调用序列异常度的定义。在进行序列的异常检测时,先利用正常系统调用序列训练PST模型,然后通过该模型,利用计算未知系统调用序列的异常度,根据给定的阈值判断该序列是否异常。实验表明这一度量对于正常进程与异常进程有着良好的区分效果。
- 郑琪蒋盛益汤庸
- 关键词:入侵检测系统调用序列