您的位置: 专家智库 > >

于苹苹

作品数:7 被引量:65H指数:6
供职机构:曲阜师范大学信息科学与工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 1篇学位论文

领域

  • 7篇自动化与计算...

主题

  • 4篇SPARK
  • 3篇聚类
  • 2篇最近邻
  • 2篇文本分类
  • 2篇K-最近邻
  • 2篇KNN
  • 2篇并行化
  • 1篇用户
  • 1篇语义相关
  • 1篇语义相关度
  • 1篇频繁模式挖掘
  • 1篇频繁模式挖掘...
  • 1篇中文
  • 1篇中文文本
  • 1篇文本处理
  • 1篇文本分类算法
  • 1篇稀疏性
  • 1篇相关度
  • 1篇相似度
  • 1篇模式树

机构

  • 7篇曲阜师范大学

作者

  • 7篇于苹苹
  • 6篇倪建成
  • 6篇曹博
  • 6篇李淋淋

传媒

  • 3篇计算机应用
  • 2篇计算机工程与...
  • 1篇计算机技术与...

年份

  • 5篇2017
  • 2篇2016
7 条 记 录,以下是 1-7
排序方式:
基于多源信息相似度的微博用户推荐算法被引量:11
2017年
针对传统的协同过滤(CF)推荐算法中存在的数据稀疏性和推荐准确率不高的问题,提出了基于多源信息相似度的微博用户推荐算法(MISUR)。首先,根据微博用户的标签信息运用K最近邻(KNN)算法对用户进行分类;然后,对得到的每个类中的用户分别计算其多源信息(微博内容、交互关系和社交信息)的相似度;其次,引入时间权重和丰富度权重计算多源信息的总相似度,并根据其大小进行TOP-N用户推荐;最后,在并行计算框架Spark上进行实验。实验结果表明,MISUR算法与CF算法和基于多社交行为的微博好友推荐算法(MBFR)相比,在准确率、召回率和效率方面都有较大幅度的提升,说明了MISUR算法的有效性。
姚彬修倪建成于苹苹李淋淋曹博
关键词:多源信息稀疏性相似度
一种基于Canopy和粗糙集的CRS-KNN文本分类算法被引量:9
2017年
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和F_1值都得到了一定的提高。
姚彬修倪建成于苹苹曹博李淋淋
关键词:粗糙集文本分类
基于Spark的并行频繁模式挖掘算法被引量:13
2016年
在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。
曹博倪建成李淋淋于苹苹姚彬修
关键词:频繁模式挖掘TOP-K模式树并行计算
基于Spark框架的并行聚类算法被引量:6
2017年
针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means(Spark Based Triangle Inequality Canopy-K-means)并行聚类算法。为了更好地解决K值选取的盲目性和随机性的问题,该算法利用Canopy进行预处理得到初始聚类中心点和K值;在K-means迭代计算过程中进一步利用距离三角不等式定理减少冗余计算、加快聚类速度,结合Spark框架实现算法的并行化,充分利用Spark的内存计算优势提高数据的处理速度,缩减算法的整体运行时间。实验结果表明,SBTICK-means算法在保证准确率的同时大大提高了聚类效率,与传统的K-means算法、Canopy-K-means算法和基于MapReduce框架下的该算法相比,在加速比、扩展比以及运行速率上都有一定的提高,从而更适合应用于海量数据的聚类研究。
李淋淋倪建成曹博于苹苹姚彬修
关键词:K-MEANSSPARKHADOOPMAPREDUCE
基于聚类和Spark框架的加权Slope One算法被引量:8
2017年
针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。
李淋淋倪建成于苹苹姚彬修曹博
关键词:SLOPE聚类SPARK
并行化文本分类算法研究
文本分类技术作为文本处理的关键技术,在信息检索、内容过滤和主题建模等方面有着广泛应用。但随着文本数据的不断增加,传统文本分类技术分类效率低、准确率下降等弊端日益凸显,尤其无法满足对海量数据的处理需求。同时,集中式数据处理...
于苹苹
关键词:文本处理语义相关度程序设计
基于Spark框架的高效KNN中文文本分类算法被引量:19
2016年
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。
于苹苹倪建成姚彬修李淋淋曹博
关键词:K-最近邻聚类SPARK并行化计算
共1页<1>
聚类工具0