刘春阳 作品数:9 被引量:93 H指数:4 供职机构: 国家互联网应急中心 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
大规模短文本的不完全聚类 被引量:39 2011年 聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。 彭泽映 俞晓明 许洪波 刘春阳关键词:聚类分析 网络舆情信息源影响力的评估研究 被引量:29 2011年 文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点:除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。在量化影响力时,文章借鉴网络链接分析算法PageRank,提出算法SrcRank对信息源重要度进行排名。实例分析结果表明,评估方法能够客观而合理地评价网络舆情信息源的影响力。 郭岩 刘春阳 余智华 张瑾 戴媛关键词:网络舆情 PAGERANK 图索引技术研究综述 2013年 随着信息技术和网络技术的发展,图作为一种通用的数据结构被用于不同学科建模各种实体以及实体之间的关系。图中各实体间隐藏了很多有价值的信息,为了挖掘图中隐藏的这些信息,图的相关研究成为了各领域的研究热点,但在大多数图研究中最关键的问题是如何有效地进行图查询。在图数据库中存在着两种图数据集:单图和图集。针对单图或图集进行图查询是相当费时的,为了加快图查询速度,图索引成为各种图查询算法的研究重点,而图索引的焦点在于利用图索引的结构模式来最小化搜索空间的大小。本文将图查询归为两种:子图查询和超图查询。在每种查询中,依据图索引建立时选择的图结构特性进行了细分,主要集中于图索引的构建思想,并对典型的索引方法进行了详细的叙述。针对不同的图索引分析了各自的优缺点,并比较了各种索引方法的特点。最后,总结并探讨了图索引的发展趋势。 刘雅辉 刘春阳 张铁赢 程学旗关键词:子图 超图 基于多视角特征融合的中文垃圾微博过滤 被引量:7 2013年 微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。 于然 刘春阳 靳小龙 王元卓 程学旗短文本信息流的无监督会话抽取技术 被引量:19 2012年 文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%. 黄九鸣 吴泉源 刘春阳 张旭 贾焰 周斌融合马尔可夫聚类的实体间关系消解方法 2017年 随着面向网络大数据的知识库的不断出现,它们各自都包含海量的实体以及实体间的关系。然而许多有相同含义的关系并没有统一名称,针对这种情况,提出了一种基于马尔可夫聚类(Markov cluster algorithm,MCL)的实体间关系融合方法。该方法首先计算关系间的语义相似度,然后利用关系间的语义相似度作为有边的权重,构建无向图,并利用马尔可夫聚类算法进行聚类。实验表明,该方法相比层次聚类和k-means聚类方法在聚类纯度上有一定提高,并且更加方便使用。 常雨骁 庞琳 贾岩涛 林海伦 王元卓 刘悦 刘春阳关键词:知识库 一种基于相似性聚类的社会网络合作模式发现方法 2012年 社会网络上的模式挖掘是近年来的研究热点之一,合作模式是社会网络上个体间的合作方式,这种模式可以通过社会网络的子结构表示。已有的基于频繁模式的挖掘算法主要考虑合作关系的结构特征,并且往往需要给定支持度阈值来控制结果的规模。在本文中,我们认为社会网络中的模式不一定需要是频繁的,模式与社区也并不需要精确匹配。我们在合作模式中考虑节点的社会地位,并在加权图上给出了一种模式的定义方法,和一种基于互相似性的模式匹配衡量标准,目的在于找出网络中具有"代表性"的合作模式。我们设计了一种基于距离的聚类方法用于抽取这种模式,并在一个大规模的真实数据集上进行了验证。 韩毅 贾焰 刘春阳 周斌 韩伟红关键词:社会网络 聚类 加权图