北京市科技计划项目(Z121100000312024)
- 作品数:3 被引量:15H指数:2
- 相关作者:刘云苑卫国程军军行新香温源更多>>
- 相关机构:北京交通大学中国科学院中国信息安全测评中心更多>>
- 发文基金:北京市科技计划项目北京市自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 微博网络中用户特征量和增长率分布的研究被引量:12
- 2014年
- 根据新浪微博的实际用户数据,发现粉丝数、关注数和微博数3个特征量的分布,都存在双段幂律分布现象,不同类型用户特征量的分布具有差异性.使用双帕累托对数正态(DPLN)分布对数据进行拟合,相比对数正态分布和幂律分布,可以得到更优的效果.用户活跃时间服从指数分布,不同活跃时间的3个用户特征量都近似服从对数正态分布;用户特征量的增长率服从对数正态分布,且与特征量自身的规模无关,这些特征与双帕累托对数正态分布模型一致,从而使用这一模型可以很好地解释粉丝数、关注数和微博数分布特性的形成机制.
- 苑卫国刘云程军军
- 关键词:复杂网络对数正态分布社会计算
- 微博用户特征量增长规律研究被引量:3
- 2015年
- 根据抓取到的新浪微博实际用户数据,分析了粉丝数、关注数和微博数3个特征量的增长模式,发现这3个特征量整体上都随时间线性增长,取整后的增长率服从幂律分布.用户特征量增长模式主要呈持续增长和爆发式增长,其中爆发式增长用户按增长的不同阶段又可以划分为前期、中期、后期和阶跃式4种增长模式.使用基于向量余弦距离相似性的K-means聚类算法,对不同排序和不同初始规模实际用户特征量的时间序列进行聚类分析,统计得到不同增长模式的用户数量.发现用户特征量中增速高的用户增长主要以爆发式增长为主,而规模高的用户增长以持续式增长为主.通过对用户粉丝数爆发式增长的过程分析,对比用户微博被转发和被评论二者的增长关系,提出了导致用户粉丝数爆发式增长的原因.
- 苑卫国刘云
- 关键词:时间序列
- 一种基于PDBMLCA聚类的网络突发事件发现算法
- 2013年
- 针对目前网络信息爆炸式发展的状况下,需要及时了解和掌握网上重要信息及追踪网络事件进展,给出了一种突发事件发现算法.该算法通过引入文本词语的突发度量值,考虑位置对词语权重影响等因素,提高了计算权重值的准确度.根据基于预设密度的最大链路算法,在平均半径的范围内,满足一定条件的文本集合连成一条链路,进而形成一个类簇相似的文本以类簇为类.该聚类算法在结合突发值及位置影响等因素下,能够合理的划分一段时期内的文本并归属相应的主题.实验结果表明,该算法在发现突发事件中有较好的效果.
- 温源王星刘云行新香
- 关键词:自然语言聚类突发事件