山西省自然科学基金(2010011021-2)
- 作品数:16 被引量:57H指数:5
- 相关作者:张继福刘爱琴李鑫荀亚玲杨海峰更多>>
- 相关机构:太原科技大学更多>>
- 发文基金:山西省自然科学基金山西省回国留学人员科研经费资助项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术机械工程金属学及工艺更多>>
- 一种新的基于频繁加权概念格的视觉单词生成方法被引量:1
- 2012年
- 传统的视觉单词仅通过无监督聚类方法生成,标注的精度和效率较低。加权概念格是一种有效的层次数据分析工具,本文采用加权概念格对视觉单词进行分析与约简,提出了一种新的视觉单词生成方法。首先生成训练图像视觉词包的形式背景,并通过信息熵获取视觉单词的权值;其次针对各语义类别,根据用户所设定的内涵重要性阈值,构造出视觉词包模型频繁加权概念格;然后依据外延数阈值,提取对分类贡献大的描述图像语义的约简视觉单词,进一步提高了标注的精度和效率;最后通过实验验证了该方法是有效的和可行的。
- 褚萌张素兰张继福
- 一种网格环境下的FP-树分布式构造算法被引量:2
- 2011年
- 针对分布式环境下FP-tree的构造及合并,给出了一种网格环境下FP-tree的分布式构造算法GridDBMA。该算法中,各站点根据全局项目头表,独立构造局部频繁模式树BFP-tree,然后,利用合并算法将各局部树合并为一棵全局频繁模式树,并在全局频繁模式树上提取出所求的频繁项目集,通过对传统频繁模式树的存储结构的改进,减少了树的规模及站点间的网络通信量,并使树的遍历更加方便有效,提高了合并效率,从而提高了整个频繁项目集的挖掘效率。最后,采用天体光谱数据作为形式背景,实验验证了该算法的正确性和有效性。
- 荀亚玲吴晓婷张继福
- 关键词:网格分布式数据挖掘关联规则FP-树
- 一种基于加权概念格的分类规则提取算法被引量:1
- 2011年
- 加权概念格是针对属性的重要程度,通过引入内涵权值而形成的一种格结构。采用加权概念格作为分类规则提取工具,通过引入加权外延支持度,给出了一种新的分类规则的提取算法CRAAF-WCL。最后,利用恒星光谱数据作为形式背景,实验验证了该算法具有较高的分类效果。
- 孙桂利张继福
- 关键词:数据挖掘加权概念格
- 基于属性相关分析的离群数据并行挖掘算法被引量:2
- 2011年
- 针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。
- 王磊张继福
- 关键词:数据挖掘并行计算
- 基于w-距离均值的模糊聚类算法被引量:5
- 2012年
- 针对模糊C-均值(FCM)算法易陷入局部最优值以及对聚类中心和噪声数据敏感问题,提出了一种基于w-距离均值的模糊聚类算法。首先根据数据自身的分布规律,依据样本间距离均值思想确定初始聚类中心,并引入了调衡因子w来调节距离均值阈值;其次为每个样本赋予权值,并利用样本权值修改了聚类中心公式和目标函数公式,提高了算法的抗噪性;最后实验结果验证了所提算法可以有效地解决聚类效果往往受初始聚类中心的影响的问题,避免了局部收敛,增强了抗噪性,准确率和效率较高。
- 张瑞丽张继福
- 关键词:模糊聚类初始聚类中心抗噪性
- 一种面向云计算环境的制造文本分类算法的研究被引量:1
- 2013年
- 简要介绍了云计算的特点,为研究云计算环境下制造文本准确且快速分类的问题,阐述了NB和SVM算法。在分析NB和SVM算法优缺点的基础上,提出了一种NB-SVM算法,并对这3种算法的实验结果进行了对比。
- 刘刊刘中
- 关键词:云计算文本分类NBSVM
- 恒星光谱数据分类规则挖掘系统研究被引量:2
- 2011年
- 针对恒星光谱数据的处理需求,采用约束概念格作为恒星自动分类手段,利用Visual C++6.0和Oracle10g作为系统开发的工具,设计并实现了恒星光谱数据的自动分类系统,在介绍系统的功能模块和体系结构的基础上,详细描述了系统的关键技术。系统的运行结果表明,利用约束概念格来实现恒星光谱数据的自动分类,是可行的和有价值的。
- 马洋
- 关键词:恒星光谱数据挖掘约束概念格
- 利用模糊熵约束的模糊C均值聚类算法被引量:11
- 2014年
- 针对传统的模糊C均值聚类算法求解隶属度公式仅仅考虑距离因素和算法对噪声数据敏感的问题,通过引入模糊熵约束,给出一种模糊C均值聚类算法.该算法引入模糊熵作为模糊C均值聚类算法的约束条件,重新给出了模糊C均值聚类算法的隶属度和聚类中心求解新公式,与原算法公式相比,新公式不仅考虑了距离因素,而且还考虑了数据集分布特性,并对同一个数据对象隶属于所有聚类中心的隶属度进行相关性计算,使得整个隶属度求解公式具有高斯分布特性,从而可以抑制噪声数据对聚类中心的影响.最后,采用UCI数据集,实验验证了该算法与传统FCM聚类算法及其派生算法相比,进一步提高了聚类的准确率和抗噪性.
- 廖松有张继福刘爱琴
- 关键词:模糊C均值聚类模糊熵聚类中心
- 一种基于p权值的离群数据挖掘算法被引量:6
- 2014年
- 传统的基于距离的离群数据挖掘方法计算量大,挖掘效率和精度较低.本文利用大多数据集的聚类性特征,采用p权值和剪枝技术,给出一种基于距离的离群数据挖掘算法.该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存;然后对候选集中的每个数据点,分两种情况:若近邻达不到k值,赋予一个相对较大权值,若达到k值,运用p权值方法,计算该数据对象与其k最近邻的距离和,和越大,则离群的可能性越大;将离群候选集中的每个数据点按权值大小排序,并确定是否为离群数据,从而较好地克服了离群检测中的掩盖和淹没现象;最后采用UCI数据,实验验证了该算法的有效性.
- 娄圣金张继福刘爱琴
- 关键词:离群数据挖掘相似性搜索三角不等式
- 基于模糊C均值聚类的天文光谱特征线软离散化被引量:5
- 2012年
- 连续数值属性离散化是天文光谱数据预处理中的主要研究内容之一。针对天文光谱特征线,提出了一种基于改进模糊C均值聚类的天文光谱特征线软离散化算法。该算法首先利用样本的密度值选取特征线的候选初始模糊聚类中心,有效地克服了对噪声数据敏感的缺陷;其次采用决策表中的相容性作为评判标准,动态的调节聚类参数,以达到优化的光谱特征线离散化效果;最后采用晚型星、类星体、高红移类星体SDSS天文光谱特征线数据集。实验验证了该算法具有较高的识别率,为天文光谱特征线数据预处理提供了一种新途径。
- 张继福李鑫杨海峰
- 关键词:特征线离散化模糊聚类