您的位置: 专家智库 > >

高琳

作品数:5 被引量:26H指数:3
供职机构:河北师范大学数学与信息科学学院更多>>
发文基金:河北省高等学校科学技术研究指导项目国家自然科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 2篇多尺度
  • 2篇关联规则
  • 1篇信息粒
  • 1篇信息粒度
  • 1篇预处理
  • 1篇人口数据
  • 1篇数据挖掘
  • 1篇数据预处理
  • 1篇文本分类
  • 1篇文本数据
  • 1篇文本挖掘
  • 1篇相似性度量方...
  • 1篇粒计算
  • 1篇可视化
  • 1篇可视化方法
  • 1篇超图
  • 1篇词频
  • 1篇词频统计
  • 1篇大数据

机构

  • 5篇河北师范大学

作者

  • 5篇赵书良
  • 5篇高琳
  • 5篇李超
  • 2篇李超
  • 2篇罗燕
  • 2篇高琳
  • 1篇罗燕

传媒

  • 3篇计算机科学
  • 2篇计算机应用研...

年份

  • 1篇2018
  • 4篇2017
5 条 记 录,以下是 1-5
排序方式:
基于特征隶属度的文本分类相似性度量方法被引量:2
2017年
基于相似性进行文本分类是当前流行的文本处理方法。基于特征隶属度的文本分类相似性度量方法旨在利用特征与文档间的隶属关系度量文档相似性,从而实现文本分类。该方法基于特征与文档的隶属关系,对特征进行全隶属、偏隶属和无隶属词集划分,并基于3种隶属词集定义隶属度函数。全隶属词集隶属于两篇文档,隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档,隶属度为一个定值;无隶属词集与两篇文档无隶属关系,隶属度为零。在度量相似性时,偏隶属关系高于全隶属关系。由于同类文档词集相近,异类文档词集差异明显,因此,基于特征与文档的隶属度进行相似性度量,可清晰界定词集与类别的隶属关系,提升分类精度。最后,采用数据集20-Newgroups和Reuters-21578对分类有效性进行验证,结果表明基于特征隶属度的相似性度量方法的性能优于目前流行的相似性度量方法。
池云仙赵书良罗燕赵骏鹏高琳李超
关键词:数据挖掘文本分类
基于粒计算的多尺度聚类尺度上推算法被引量:8
2018年
多尺度科学在数据挖掘领域的研究多见于图像和空间数据挖掘,对一般数据的多尺度特性研究较少。传统聚类算法只在单一尺度上进行,无法充分挖掘蕴藏在数据中的知识。引入粒计算思想,进行普适的多尺度聚类方法研究,对数据进行多层次、多角度分析,实现一次挖掘,多次应用。首先,介绍粒计算相关知识;然后,提出多尺度聚类尺度上推算法UAMC(upscaling algorithm of multi-scale clustering),以簇为粒子,簇心为粒子特征进行尺度转换,利用斑块模型得到大尺度知识,避免二次挖掘带来的资源浪费。最后,利用UCI公用数据集和H省全员人口真实数据集对算法性能进行实验验证,结果表明算法在准确性上优于K-means等基准算法,是有效可行的。
赵骏鹏赵书良李超李超高琳
关键词:多尺度粒计算信息粒度
基于词频统计规律的文本数据预处理方法被引量:11
2017年
在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。
池云仙赵书良罗燕罗燕高琳高琳
关键词:大数据文本挖掘数据预处理词频统计
多尺度关联规则尺度上推算法被引量:4
2017年
数据挖掘在多尺度研究方面取得了一些成果。然而,多尺度数据挖掘研究还不够深入和完善。目前针对空间和图像数据的研究较多,对于一般数据的多尺度数据挖掘的研究较少。随着大数据应用的不断发展,其研究显得尤为重要。针对上述问题,进行了普适的多尺度关联规则尺度转换方法的研究。首先,基于包含度的相似度理论提出频繁项集的处理方法;然后,以图像金字塔为理论基础,提出了多尺度关联规则尺度上推算法MSARSUA(Multi-Scale Association Rules Scaling Up Algorithm);最后,利用H省1)全员人口真实数据集、UCI公用数据集和IBM数据集对所提算法进行了实验验证与分析,结果表明MSARSUA具有较高的覆盖率、较高的F1-measure值和较低的平均支持度估计误差,在效率上比Apriori算法和FP-Growth算法有较大的提升,在性能上比SU-ARMA有更好的表现。
李超赵书良赵骏鹏高琳池云仙
关键词:多尺度关联规则
基于超图的关联规则可视化方法被引量:3
2017年
针对传统的关联规则可视化方法缺乏多模式关联规则展现形式、无法展示关联规则的内部信息以及分布情况、属性值重要程度突出不明显等问题,提出了基于超图的关联规则表示方法。首先,基于超图中BF-超边基础理论,给出了BF规则图的定义,并且设计了基于超图的一对一、一对多、多对一、多对多关联规则表示原型;结合沙漏结构,设计了基于超图的关联规则可视化布局算法;然后,基于交互理论及其相关技术,设计并实现了交互式关联规则可视化系统;最后,以某省全员人口数据为基础,对算法进行了具体实现和分析。实验结果表明,所提出的可视化形式和已有成果相比具有良好的展现效果。
高琳赵书良赵骏鹏李超池云仙
关键词:超图关联规则可视化人口数据
共1页<1>
聚类工具0