您的位置: 专家智库 > >

国家高技术研究发展计划(2007AA01Z438)

作品数:6 被引量:32H指数:3
相关作者:张华平刘金刚程学旗杨森陈友更多>>
相关机构:中国科学院中国科学院研究生院首都师范大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 6篇会议论文

领域

  • 12篇自动化与计算...

主题

  • 4篇信息检索
  • 4篇聚类
  • 2篇信息处理
  • 2篇舆情
  • 2篇约束聚类
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇模式匹配算法
  • 2篇计算机
  • 2篇计算机应用
  • 2篇关键词提取
  • 1篇多特征融合
  • 1篇信息检索方法
  • 1篇舆论
  • 1篇舆论引导
  • 1篇舆情监测
  • 1篇语料
  • 1篇语言模型
  • 1篇时间序列

机构

  • 11篇中国科学院
  • 5篇首都师范大学
  • 3篇北京理工大学
  • 3篇中国科学院研...
  • 3篇中国科学院大...
  • 1篇北京大学
  • 1篇上海证券交易...

作者

  • 3篇刘金刚
  • 3篇李恒训
  • 3篇张华平
  • 2篇骆卫华
  • 2篇秦鹏
  • 2篇王宇
  • 1篇孙晓茜
  • 1篇郭岩
  • 1篇陈友
  • 1篇刘群
  • 1篇吴博
  • 1篇杨森
  • 1篇程学旗
  • 1篇宋林海
  • 1篇方滨兴
  • 1篇郭稷
  • 1篇白硕
  • 1篇张京阳

传媒

  • 2篇中文信息学报
  • 2篇微计算机信息
  • 1篇计算机研究与...
  • 1篇计算机应用
  • 1篇第五届全国信...

年份

  • 5篇2010
  • 7篇2009
6 条 记 录,以下是 1-10
排序方式:
基于聚团词的大规模文本转载识别算法被引量:2
2010年
文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求。为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征及比较算法进行了研究分析,提出了基于聚团词的大规模文本转载识别算法,即:依据词语的分布属性,识别并提取高得分聚团词用于表征文本,之后通过对文本集进行扩展线性比较与多维比较两次操作,最终筛选出转载识别结果。对比实验表明:该算法在准确率、召回率与效率上有较高的综合性能。
张京阳张华平刘金刚
关键词:向量空间模型
WWW论坛采集关键技术研究被引量:1
2010年
论坛是互联网中最活跃的部分,蕴涵着丰富的信息。论坛采集是对论坛信息检索和挖掘的重要基础,然而传统的广度优先算法不能有效的获取论坛信息。针对论坛的深层链接、存在大量功能链接和无效链接及内容重复链接等特点,本文提出了一种论坛采集算法,能有效的解决以上难题。经过实验表明,论坛采集的覆盖率和有效率明显优于传统算法,并且应用在中科院计算所舆情监测平台上取得了良好的效果。
李恒训张华平刘金刚
关键词:信息检索舆情监测
面向网络论坛的突发话题发现被引量:16
2010年
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在"水木社区"的"水木特快"上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。
陈友程学旗杨森
关键词:计算机应用中文信息处理网络论坛时间序列
结合属性分布特征的模式匹配算法
本文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相...
王宇方滨兴吴博宋林海郭岩
关键词:约束聚类
文献传递
结合属性分布特征的模式匹配算法
2010年
该文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征包括属性对互斥特征和属性对共现特征。属性对互斥特征由属性对的互斥性和出现次数计算得出,这个特征隐含了属性对的语义相似程度。为了充分利用传统的属性名、属性值相似性特征,该文通过机器学习方法结合属性对互斥特征与相似性特征进行属性匹配。并以潜在的匹配属性对为基础,引入有约束的属性聚类方法进行Web模式匹配,聚类方法的约束条件来自属性对共现特征。实验结果表明,相对于仅使用相似性特征的方法,在不同的实验设置下,结合属性分布特征的Web模式匹配算法将F值提高了0.13到0.55。
王宇方滨兴吴博宋林海郭岩
关键词:计算机应用中文信息处理约束聚类
基于Multi-Agent的媒体舆论引导仿真
本文使用multi-agent的建模思想,以现实为基础建立了一个舆论涌现的仿真模型。该模型主要由个体和媒体以及它们之间的规则组成。个体的属性包括了个体之间的信任度、个体观点的可信度和个体的从众性;媒体的属性包括媒体的影响...
孙晓茜林思明刘悦程学旗
关键词:舆论媒体
文献传递
面向大规模语料的语言模型研究新进展被引量:6
2009年
N元语言模型是统计机器翻译、信息检索、语音识别等很多自然语言处理研究领域的重要工具.由于扩大训练语料规模和增加元数对于提高系统性能很有帮助,随着可用语料迅速增加,面向大规模训练语料的高元语言模型(如N≥5)的训练和使用成为新的研究热点.介绍了当前这个问题的最新研究进展,包括了集成数据分治、压缩和内存映射的一体化方法,基于随机存取模型的表示方法,以及基于分布式并行体系的语言模型训练与查询方法等几种代表性的方法,展示了它们在统计机器翻译中的性能,并比较了这些方法的优缺点.
骆卫华刘群白硕
关键词:语言模型数据压缩布隆过滤器
一种基于索引模型融合的面向问答的信息检索方法
IR4QA(Information Retrieval for Question Answering)是日本国立情报局组织举办的第7届国际跨语言检索评测(NTCIR-7)提出的新任务,其目的是研究信息检索和问答技术融合的...
郭稷骆卫华
关键词:信息检索
文献传递
基于主题词的网络热点话题发现
网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义串识别结果生成主题词候选集;然后对候选集进行...
李恒训张华平秦鹏于满泉刘金刚
关键词:信息检索主题词提取聚类舆情
文献传递
Blog Post Extraction Using Title Finding
With the development of Web2.0,web mining applications pay more attention to blog pages.In order to prevent no...
Linhai Song~(1,2),Xueqi Cheng~1,Yan Guo~1,Bo Wu~(1,2),Yu Wang~(1,2+) 1 Institute of Computing Technology,Chinese Academy of Sciences,Beijing 2 Graduate School of the Chinese Academy of Sciences,Beijing
关键词:BLOGPOSTSVM
文献传递
共2页<12>
聚类工具0