辽宁省科学技术计划项目(2008216014)
- 作品数:16 被引量:76H指数:4
- 相关作者:任永功宋奎勇寇香霞杨荣杰尹明飞更多>>
- 相关机构:辽宁师范大学更多>>
- 发文基金:辽宁省科学技术计划项目大连市优秀青年科技人才基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文学电子电信更多>>
- 一种基于局部信息的社区发现方法被引量:4
- 2011年
- 针对复杂网络中难以发现小社区的问题,在CNM算法的基础上,提出一种利用局部信息进行社区挖掘的方法。定义节点的强度及节点对社区的贡献,改进模块度使该方法能适用于带权网络。利用社区局部信息得到小社区集合,将小社区集合作为CNM算法的输入,计算小社区间的模块度增量,凝聚模块度增量小的小社区,并得到最终结果。实验结果表明,该方法具有较高的社区模块度和算法执行效率。
- 任永功孙宇奇吕朕
- 关键词:复杂网络聚类图分割
- 一种基于频繁模式树的最大频繁项目集挖掘算法被引量:7
- 2010年
- 目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,这类算法会产生巨大的候选集并且重复扫描数据库.针对这一问题,给出一种基于频繁模式树的最大频繁项目集挖掘算法FP-MFIA,该算法利用频繁模式树对最大频繁项目集进行检索,通过位图建树的方法有效的减少了扫描数据库的次数,从而节省了CPU的执行时间.另外,此算法运用独特的最大频繁项目集判断策略,同时运用投影技术进行超集检测,提高了遍历的效率,实验结果表明该算法是快速有效的.
- 任永功张亮付玉
- 关键词:频繁项目集最大频繁项目集频繁模式树深度优先搜索
- 一种基于聚类分析的事务间关联规则挖掘算法被引量:1
- 2011年
- 现有算法实现了事务内到事务间最大频繁项目集的转换,能够直接发现不同用户之间的关联关系。但在处理较大的事务数据库时,由于是在原数据库基础上进行关联分析,产生了大量的虚假规则。针对上述问题提出一种基于聚类分析的事务间关联规则挖掘算法,利用聚类分析将初始的复杂的数据集进行约简,去掉冗余数据,缩小数据集,避免了多次扫描数据库和大量的虚假规则的产生。实验结果表明该方法比单独使用事务间的关联规则方法具有更高的效率,能更准确地预测用户的兴趣性。
- 祁艳艳任永功
- 关键词:WEB数据挖掘聚类分析
- 一种基于滑动窗口的数据流频繁项集挖掘算法被引量:11
- 2013年
- 数据流的流动性与连续性,使得数据流所蕴含的知识会随着时间的推移而发生变化。挖掘数据流中的频繁项集是一项意义重大且具有挑战性的工作。提出一种基于滑动窗口数据流的频繁项集挖掘——FIUT-Stream算法,FIUT-Stream算法分块挖掘数据流,在内存中维持一个滑动窗口数据的概要结构,随着窗口滑动动态更新该存储结构,利用FIUT算法进行频繁项集挖掘。实验表明,该算法能节省内存空间、精确获得频繁项集。
- 寇香霞任永功宋奎勇
- 关键词:数据流频繁项集
- 均衡时空挖掘数据流中频繁项集被引量:1
- 2011年
- 数据流具有流动性、连续性以及项分布不均衡性等特点,挖掘数据流中频繁项集是一项意义重大且具有挑战性的工作。提出一种均衡时空挖掘数据流中频繁项集算法——Bala_Tree,Bala_Tree实现一遍扫描数据流、快速簇更新、周期树结构重构以及基于经典算法挖掘频繁项集。实验表明,此算法能快速扫描和更新数据,合理利用内存以及精确获得频繁项集,Bala_Tree算法优于其他同类算法。
- 宋奎勇任永功寇香霞
- 关键词:数据流频繁项集
- 一种改进的用户浏览偏爱路径挖掘方法被引量:2
- 2009年
- 提出一种基于"三矩阵"模型的偏爱浏览路径的挖掘方法。在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵。在会话矩阵上采用2个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集。并利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径。实验证明,该方法是合理有效的,能够得到更精准的用户偏爱浏览路径。
- 任永功付玉张亮
- 关键词:WEB日志
- 一种结合散列与位表挖掘频繁项目集算法被引量:2
- 2010年
- 在频繁项集的挖掘中,很多算法都是基于Apriori的。这些算法有两个共同的问题:一是把整个数据库装入内存,占用大量的空间;二是在产生候选项集和计算支持度时花费了大量的时间。为了提高效率,提出了一种基于位表挖掘频繁项目集的算法Hash-BFI。按照水平和垂直的方向把数据库压缩到位表内,以大大节省内存空间。引入散列函数计算频繁二项集,完全通过AND,OR运算得到候选项集和计算候选项集支持度,并进行剪枝,从而提高了算法效率。
- 任永功宋奎勇寇香霞
- 关键词:APRIORI频繁项集散列
- DPFS:一种基于动态规划的文本特征选择算法被引量:2
- 2009年
- 在文本特征选择过程中,针对原始特征空间维数过高、计算量过大、并且存在较大不相关性和冗余性,提出了一种基于动态规划思想的文本特征选择算法(DPFS)。首先,结合动态规划思想,基于特征与类别的相关性分析,对原始特征集合进行特征筛选,保留与类别具有强相关性和弱相关性的特征;然后,再次结合动态规划思想,对特征子集做冗余性分析,滤除弱相关且冗余的特征;最后,得到一个近似最优特征子集。实验结果表明,此算法在对数据降维和在降维过程中减少计算量是有效的。
- 任永功林楠
- 关键词:冗余性动态规划
- 基于信息增益的文本特征选择方法被引量:31
- 2012年
- 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
- 任永功杨荣杰尹明飞马名威
- 关键词:文本分类不平衡数据集
- 基于WCF-tree加权滑动窗口数据流元项集挖掘被引量:1
- 2012年
- 数据流挖掘是当今数据挖掘领域内热点研究问题。通常频繁项集的数据量大,影响挖掘结果的理解与应用,提出一种基于WCF-tree加权滑动窗口数据流元项集挖掘算法(TWEM算法)。首先,考虑到数据在不同时间窗口内的重要性,允许用户定义窗口个数和各窗口权值;其次,利用WCF-tree挖掘闭项集;最后,结合各等价类内项集与相应元项集支持度不完全相同,保持一种可估算的关系的特性,挖掘元项集。实验结果表明,TWEM算法缩小了搜索空间,提高了程序的运行效率。
- 任永功李雪兰
- 关键词:闭项集数据流数据挖掘