贵州省科学技术基金(J[2010]2100)
- 作品数:5 被引量:21H指数:2
- 相关作者:吴云段迅范玉强龙慧云马燕龙更多>>
- 相关机构:贵州大学曲阜师范大学昆明理工大学更多>>
- 发文基金:贵州省科学技术基金博士科研启动基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- K-means算法在隐语义模型中的应用被引量:1
- 2016年
- 隐语义模型(LFM)是文本挖掘领域的重要模型,将它应用于推荐系统的评分预测具有预测精度高和占用内存小的优点。但由于时间开销较大,LFM模型并不适合用于处理大规模稀疏矩阵。针对此问题,论文将K-means算法引入到LFM模型的评分数据处理,得到改进模型K-LFM。在K-LFM模型中,利用K-means算法对评分矩阵中的用户和项目数据进行聚类处理,然后重构评分矩阵降低原始矩阵的稀疏程度和矩阵规模,最后用重构后的评分矩阵训练模型,预测评分。通过在movielens数据集上实验发现K-LFM模型在运行时间上较LFM模型有大幅降低,而预测精度没有受到明显影响。
- 范玉强龙慧云吴云
- 关键词:K-MEANS算法
- 一种毛笔墨迹评估的方法
- 2012年
- 文章研究了一种毛笔墨迹检测相似度的问题,提出了一种基于骨架上下文的墨迹比对的方法。该方法先对骨架点进行采集,确定虚拟墨迹骨架点与真实墨迹骨架点的一一对应。在这基础上计算骨架点的上下文信息,从而计算对应骨架点的墨迹相似度,最终两种墨迹的相似度就为整个骨架对应点的相似度之和。仿真结果表明,相似度的结果会在0~1之间(归一化处理),值越大,表明两种墨迹越相近;并且骨架点数的多少(一次为50,一次为100),对评估的结果影响不大,两个实验都表明基于骨架点上下文的墨迹比对是种可行的方法。
- 韩丽娟孙玉红李博
- 关键词:墨迹非真实感
- 基于Hadoop的网络日志挖掘方案的设计被引量:4
- 2017年
- 提出一种挖掘指数级别网络日志数据的解决思路,设计了一个高可靠的网络日志数据挖掘方案。针对现有的公开网络日志数据集,在数据预处理阶段实现了基于Map Reduce的过滤算法,并且挖掘出支持企业决策的服务信息。对该方案搭建的平台进行优化操作,性能提升了3.26%,最后对方案的高可靠性、日志文件个数对平台I/O速度的影响、平台和单机在查询性能上的对比等方面做了实验。结果表明:该设计方案不仅可靠,而且随着日志文件个数的翻倍增加,读操作耗时平均增加52.58%,写操作耗时平均增加79.69%。随着日志量的增加,单机的查询耗时急剧增长,而平台的查询耗时趋于稳定。随着机器节点的增加,运算耗时以平均8.87%的速度减少。
- 许抗震吴云
- 关键词:网络日志数据挖掘数据清洗HADOOPMYSQL
- BP神经网络数据预测模型的建立及应用被引量:16
- 2016年
- 针对BP神经网络输入节点、初始权值的选取和激励函数问题,讨论BP神经网络预测模型的建立与改进。然后构建改进后的BP神经网络预测模型,并以贵阳市1998年~2013年的房价及其影响因素的数据为基础,通过实验验证该改进模型的有效性和精确性;结果表明采用论文模型预测结果相对误差不超过0.6%。
- 喻宝禄段迅吴云
- 关键词:BP神经网络遗传算法PCA算法激励函数房价
- 基于Dpark的数据分析方法的性能研究
- 2016年
- 随着大数据时代的来临,以Hadoop和Spark为首的开源分布式计算框架主导着相关行业的事实标准。然而,无论是使用Java编写的Hadoop,还是使用Scala编写的Spark,使用及对其进行二次开发的难度都比较大,而使用Python编写的分布式计算框架Dpark,具有继承自Spark的内存计算和惰性求值机制,结合Python的简洁语法,同时又配合分布式文件系统MooseFS、分布式数据库Beansdb和分布式资源调度框架Mesos,可以极大提高数据分析的工作效率。文章主要对比了传统Python程序和基于Dpark的Python程序在完成数据预处理工作上的运行效率,得出后者的性能和可扩展性至少优于前者数十倍的结论。
- 马燕龙吴云
- 关键词:集群部署数据预处理