国家高技术研究发展计划(2007AA01Z439)
- 作品数:22 被引量:255H指数:11
- 相关作者:李弼程林琛周杰张先飞王瑾更多>>
- 相关机构:解放军信息工程大学中国人民解放军信息工程大学中国人民解放军61081部队更多>>
- 发文基金:国家高技术研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于Hash技术的重复性评论检测被引量:4
- 2009年
- 随着互联网技术的迅速发展,论坛已经成为人们获取信息、发表言论的重要场所,但大量的重复评论已成为论坛舆情信息内容获取与监管系统中新的难题,因此对重复评论进行有效检测和消重就至关重要。针对重复评论在一定时间内具有数量大、密度高、内容相似度高的特点,提出了一种基于SHA-1技术的重复评论检测方法。该方法以句和段为粒度块计算评论Hash值,然后统计Hash表中相同的指纹数目以此判断评论之间的相似度,最后依据给出的相似度阈值检测评论是否为重复评论。实验结果表明,该方法可以对重复评论进行有效检测和消重,且优于传统方法。
- 李真林琛李弼程
- 关键词:舆情信息相似度计算HASH表
- 基于EMD的网络舆情演化分析与建模方法被引量:24
- 2012年
- 现有研究忽略网络舆情演化过程的多成分特性,导致演化分析与建模效果较差。为此,提出一种基于经验模态分解(EMD)的网络舆情演化分析与建模方法。对演化过程进行EMD分解,形成演化过程的趋势成分、周期成分、突发成分和随机成分,通过对各成分进行分析与建模,实现网络舆情的演化分析与建模。实验结果表明,该方法通过EMD分解得到的各成分物理含义明显,有助于分析网络舆情的演化规律,同时具有较好的趋势预测效果,适合进行演化建模。
- 周耀明王波张慧成
- 关键词:网络舆情经验模态分解时间序列
- 基于正反例训练的SVM命名实体关系抽取被引量:6
- 2008年
- 根据中文命名实体关系抽取的特点,从中文的形态学、语法及语义等几个方面选取特征并构建特征向量,然后将符合特定实体关系模板的候选命名实体对抽取出来并分为正反例。利用正反例样本对支持向量机(SVM)抽取器进行训练,以此来判断候选命名实体对的关系类型。实验证明,本方法能够有效提高中文命名实体关系抽取的准确率。
- 刘路李弼程张先飞
- 关键词:SVM算法
- 基于事件抽取的网络新闻多文档自动摘要被引量:15
- 2012年
- 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
- 韩永峰许旭阳李弼程朱武斌陈刚
- 关键词:事件抽取中文信息处理聚类
- 突发事件网络舆情研究探讨被引量:43
- 2010年
- 突发事件网络舆情对国家稳定、社会和谐的影响愈加突出。对突发事件网络舆情研究框架、思路及方法进行了探讨,其总体框架由突发事件网络舆情演化理论、监测与预警方法、应对策略、数据/知识库四部分组成;研究思路坚持定性分析与定量分析相结合、社会科学与工程技术相结合、基础研究与应用研究相结合,将突发事件网络舆情演化理论、监测与预警方法、应对策略作为一个整体研究;最后借鉴军事领域中的战场态势分析和威胁估计的思想给出了具体研究方法。
- 李弼程林琛郭志刚
- 关键词:突发事件网络舆情监测预警
- 网络舆情演化模式分析被引量:13
- 2012年
- 网络舆情演化分析已成为网络舆情研究的热点内容。文章使用描述网民发帖过程的时间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,构建了6个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、周期模式和趋势模式,并给出了相应的模式分析方法。实验表明,构建的网络舆情演化模式能够有效地表征网络舆情演化过程,有助于更深层次地分析网络舆情演化规律,为后续演化建模提供理论基础。
- 周耀明张慧成王波
- 关键词:网络舆情时间序列
- 基于单实体语言模型的实体关系发现和描述被引量:1
- 2008年
- 传统中文实体关系抽取方法大都采用基于共现实体对的上下文模型,这种模型会遗失很多潜在的实体关系,并且无法对相似的实体关系给出合理的描述信息。针对这一局限性,文章提出一种基于单实体的上下文语言模型。通过对文本集中的所有实体建立上下文语言模型,来计算实体之间的相似度以及上下文词汇的贡献度得分,从而发现相似度较高的实体对,并获得实体关系的描述信息。实验证明,与传统方法相比,本文方法能够发现更丰富的实体关系,描述信息也更加准确。
- 刘路李弼程张先飞孙显著
- 关键词:语言模型
- 网络新闻口语评论文本中人物对象识别方法被引量:2
- 2010年
- 网络新闻口语评论文本中的人物对象是网络舆情的重要内容,是口语评论情感倾向性分析的基础。该文结合新闻口语评论中人物对象特点,提出了一种有效的人物对象自动识别方法。该方法首先在分词基础上,采用多频率综合判别对单字作为人物对象的可靠度进行评估,以获得稳定的识别线索;其次,根据线索划定处理窗口,利用改进频繁项挖掘算法,从窗口中提取候选人物对象;最后,对结果中存在的冗余进行优化处理。实验结果表明,新方法能够完整、有效地识别网络新闻口语评论文本中的人物对象。
- 林琛李弼程周杰
- 关键词:计算机应用中文信息处理网络舆情频繁项挖掘
- 基于语义相似度的论坛话题追踪方法被引量:22
- 2011年
- 现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。
- 席耀一林琛李弼程周杰许旭阳
- 关键词:关键词语义相似度向量空间模型
- 基于直觉模糊推理的态势理解方法被引量:4
- 2011年
- 针对态势理解问题,提出一种基于直觉模糊推理的方法。首先介绍了直觉模糊理论,并对舆情态势分析问题进行描述,选取了影响态势分析的一些重要属性;其次对属性进行了模糊化,建立了规则库并设计了直觉模糊推理的方法;最后通过10个目标的实例,验证了方法的有效性。
- 王瑾李弼程黄洁
- 关键词:信息融合直觉模糊推理舆情