江苏省科技厅基金(BZ2010021)
- 作品数:8 被引量:62H指数:4
- 相关作者:叶施仁杨长春严水歌周猛徐小松更多>>
- 相关机构:常州大学湘潭大学更多>>
- 发文基金:国家自然科学基金江苏省科技厅基金江苏省研究生培养创新工程项目更多>>
- 相关领域:自动化与计算机技术文化科学自然科学总论更多>>
- 基于用户质量的微博社区博主影响力排序算法被引量:10
- 2015年
- 微博特有的移动终端轻博客发布与交互模式,使其迅速成为使用范围最大、影响力最大的社交媒体。新浪中文微博现有超过3亿用户,发展最为迅速,中文微博和其他微博相比具有独特性,一些大"V"博主的影响力堪比电台电视。通过分析微博的网络结构特征,总结出微博相对于其他传统社会载体的特性。利用Page Rank算法的思想,设计了基于用户质量的User Impack Rank(UIR)排序算法。UIR算法通过用户相对微力值和用户相对链接质量对各博主的影响力进行动态的评估。在一个活跃的微博社区数据集上进行了全面的实验,实验结果显示了UIR算法能更加准确和客观地对用户的影响力进行排序,并且能有效地消除僵尸粉丝对排序的影响。
- 唐飞龙叶施仁肖春
- 关键词:PAGERANKUSERRANK
- 基于改进完全子图模型的关注对象多社区发现研究
- 2016年
- 为实现用户和关注对象的多社区划分,针对完全子图模型不能进行多类分类的缺陷,该文引入了阈值划分方法,提出基于改进完全子图模型的社区发现算法。实验表明:与经典数据挖掘算法K-medoids相比,该文算法具有更高的准确性。
- 封红旗雷晨阳沈田予杨长春
- 关键词:数据挖掘算法
- 基于PSO-SVM算法的长微博贴图识别方法被引量:1
- 2013年
- 微博由于字数的限制,当用户需要发较多内容时通常以附图的形式给出,识别包含文本内容贴图的长微博能够为微博研究提供更多有用的数据。在支持向量机(SVM)的基础上结合粒子群算法(PSO)提出了一种识别长微博贴图的PSO-SVM算法。该方法提取长微博贴图的颜色矩和灰度共生矩阵特征,然后利用PSO算法对SVM模型中的误差惩罚参数和核函数进行优化得到最佳分类模型,其最优参数将被用作长微博贴图和非长微博贴图进行分类。实验表明,与传统的基于网格搜索法优化的SVM算法相比,PSO-SVM算法对长微博贴图识别具有更高的准确率和召回率。
- 刘平叶施仁杨长春侯振杰肖飞
- 关键词:支持向量机粒子群优化算法
- 一种新的中文微博社区博主影响力的评估方法被引量:26
- 2012年
- 提出了基于传统的PageRank算法的改进模型评估微博社区博主的影响力。微博社区中博主的影响力反映其话语权的大小,是研究微博社区的核心概念之一。通过对平均度、聚类系数和平均路径长度等网络特征指标的统计,验证了微博社区网络具有"小世界"的显著特性。从用户活跃度和博文质量两个角度出发,构建了博主影响力的评价指标,引入了博主传播能力这个因子,利用PageRank算法的思想设计了新的影响力排名(Influence Rank)算法模型来评估博主影响力。通过实验对比发现Influence Rank算法在考虑节点间的关系之外还考虑了节点本身的特性,能够更加准确客观地反映博主的影响力排名。
- 杨长春俞克非叶施仁严水歌丁虹杨晶
- 关键词:PAGERANK算法INFLUENCE
- 基于文本相似度的微博网络水军发现算法被引量:11
- 2014年
- 微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.
- 杨长春徐小松叶施仁周猛
- 关键词:特征码索引文本相似度
- 新浪微博搜索排序方法研究
- 2013年
- 深入讨论了基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据,通过一个实验样例阐述向量空间模型和潜在语义分析的处理过程。新浪微博现有排序方法通常不能提供按照相关性排序的满意结果。利用向量空间模型以及潜在语义分析方法,构建"索引词-博文"矩阵,对博文进行分词和向量化。衡量博文和查询的相关度转化成计算博文向量和查询向量之间的相似度。把对博文和查询的处理简化为向量空间中向量的运算。由实验得知基于潜在语义分析的微博搜索排序算法有效地提高了博文的检索效率。
- 叶施仁严水歌杨长春
- 关键词:向量空间模型潜在语义分析
- 基于改进CURE算法的微博热点话题发现被引量:12
- 2013年
- 由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的"头部",能够更加直观的发现微博热点话题。
- 杨长春周猛叶施仁徐小松
- 关键词:层次聚类算法
- 基于VSM和LSA的微博搜索排序方法研究被引量:4
- 2015年
- 为研究基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据。研究利用向量空间模型以及潜在语义分析方法,构建"索引词-博文"矩阵,对博文进行分词和向量化。衡量博文和查询的相关度转化成计算博文向量和查询向量之间的相似度。使用博文向量和查询向量之间的夹角余弦值来计算它们之间的相似度。把对博文和查询的处理简化为向量空间中向量的运算。由实验得知基于潜在语义分析的微博搜索排序算法有效地提高了博文的检索效率。
- 叶施仁严水歌杨长春
- 关键词:向量空间模型潜在语义分析