四川省教育厅科学研究项目(12ZB326)
- 作品数:8 被引量:32H指数:3
- 相关作者:张晖赵旭剑李波王耀彬杨春明更多>>
- 相关机构:西南科技大学中国科学技术大学更多>>
- 发文基金:四川省教育厅科学研究项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于特征演变的新闻话题演化挖掘方法被引量:23
- 2014年
- 话题演化挖掘研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和应用前景.现有工作由于缺乏对话题特征随时间发展而动态演变的深入分析,仅仅采用均值泛化的思想去增量扩充演化中的话题特征,引入大量话题无关信息,影响了话题关联的准确率,从而导致最终话题演化挖掘结果的偏斜.因此,针对以上问题,文中通过引入话题特征演变特性,提出一种针对话题演化的特征计算模型,在此基础上利用已有话题相关文档和最新文档进行话题信息动态增量扩充,通过对话题特征进行正向融合以及逆向过滤完成对特征信息的抗噪处理,提高话题关联的正确率,有效地解决了话题演化的偏斜问题.
- 赵旭剑杨春明李波张晖金培权岳丽华戴文锴
- 关键词:社会计算社交网络
- 网络新闻话题语义信息提取
- 2015年
- 新闻话题抽取对于话题模型构建以及新闻话题挖掘具有重要的研究意义和应用价值。传统的方法仅仅通过提取关键词包来表示话题,缺乏完整的话题语义信息描述。针对该问题,本文从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的语义表达能力。
- 赵旭剑黄发发李波张晖杨春明喻琼王耀彬
- 网络新闻话题演化趋势检测研究被引量:1
- 2015年
- 演化趋势检测能提前获取话题的演变轨迹,有效提高决策者对于话题舆情处理的主动性和预判性。针对该需求,该文深入研究新闻话题的演变过程,利用K-means算法对专题新闻报道集进行聚类,得到新闻话题演化阶段的不同类簇,并且采用Text Rank方法提取各个新闻话题演化阶段的有效关键词,然后基于时间信息,整理生成话题演化趋势。该文以百度百科相关词条的客观描述作为评判标准进行算法评测,实验结果表明本文算法具有较高的准确性。
- 赵旭剑付鹏李波张晖杨春明喻琼王耀彬
- 关键词:K-MEANS
- 网络新闻话题演化模式挖掘被引量:3
- 2015年
- 针对特定主题的新闻话题演化模式挖掘对于话题动态演化研究具有重要的研究意义和应用价值,能帮助人们清晰地梳理话题事件的来龙去脉,直观地展现话题演化轨迹的逻辑结构。针对该需求,本文提出一种面向特定话题的网络新闻话题演化模式挖掘方法,拟从挖掘话题演化逻辑的角度出发,针对特定话题(矿难事件)进行话题演化一般规律的深入分析,对话题演变过程进行阶段化表示,建立话题演化模式。实验结果表明,本文构建的特定话题演化模式具有较强的语义表达能力,符合话题逻辑。
- 赵旭剑张立李波张晖杨春明喻琼王耀彬
- 关键词:TEXTRANK
- 基于HAC的文本话题聚类研究
- 2015年
- 凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(Hierarchical Agglomerative Cluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并结果,有效实现定制式的个性化文本信息聚类。
- 赵旭剑冯健李波张晖王耀彬
- 关键词:HAC层次聚类
- 互联网新闻话题特征选择与构建被引量:8
- 2015年
- 新闻话题的特征表示是建立话题模型以及进行话题聚类(融合)的基础,传统的特征构建一般采用关键字构成的向量表示模型,未对特征的选取、分类以及质量等方面进行完整的研究,因此本文拟针对互联网新闻文档进行特征提取、特征构建以及话题聚类质量分析等方面的系统研究,阐明话题特征的选择与构建对文本话题研究的影响,为后续的话题检测与追踪等应用提供更科学的特征理论模型。实验结果表明经过话题特征优选后的聚类效果有助于提高话题模型的准确性,避免噪声特征带来的话题歧义。
- 赵旭剑邓思远李波张晖杨春明喻琼王耀彬
- 一种分层机制的网络新闻话题融合方法
- 2015年
- 传统的新闻话题融合方法往往将话题表示为一个统一的一层模型进行聚类融合,对于具有多层结构的网络新闻存在模型缺陷,容易忽略子话题的细节特征,影响新闻话题的融合结果。针对该问题,本文提出一种基于分层机制的网络新闻话题融合方法,研究话题的多层表示模型,实现对网络新闻话题的自动聚类。实验表明,本文方法较传统方法具有更高的准确率,能有效识别网络新闻在子话题上的特征差异。
- 赵旭剑涂勇李波张晖杨春明王耀彬
- 关键词:新闻话题
- 试剂配方工艺流程数据管理系统设计与开发
- 2015年
- 针对化学试剂配方工艺流程数据的管理需求,本文设计并实现了一个试剂配方工艺流程数据管理系统,提供了化学试剂配方的工艺流程数据管理和在线设计,支持用户自定义功能。系统基于J2EE框架,采用SSH、JQuery等技术,使用B/S模式进行开发。系统性能测试结果表明,本文设计并开发的数据管理系统满足功能要求和性能指标,具有较强的并发处理能力。
- 赵旭剑王斐李波张晖王耀彬
- 关键词:数据管理用户自定义