您的位置: 专家智库 > >

国家高技术研究发展计划(2006AA010105)

作品数:29 被引量:381H指数:9
相关作者:王斌施水才吕学强王涛马宏远更多>>
相关机构:北京信息科技大学中国科学院中国科学院研究生院更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 29篇期刊文章
  • 20篇会议论文

领域

  • 47篇自动化与计算...
  • 3篇文化科学

主题

  • 12篇引擎
  • 12篇搜索
  • 11篇搜索引擎
  • 11篇索引
  • 9篇信息检索
  • 8篇中文
  • 8篇抽取
  • 7篇信息处理
  • 7篇查询
  • 6篇中文信息
  • 6篇中文信息处理
  • 6篇计算机
  • 6篇计算机应用
  • 5篇网页
  • 5篇文本分类
  • 4篇信息抽取
  • 4篇日志
  • 4篇图像
  • 4篇相似度
  • 3篇图像检索

机构

  • 23篇北京信息科技...
  • 23篇中国科学院
  • 12篇北京拓尔思信...
  • 9篇中国科学院研...
  • 4篇北京语言大学
  • 3篇大连工业大学
  • 2篇北京大学
  • 1篇北京信息工程...
  • 1篇中山大学
  • 1篇国家知识产权...
  • 1篇北京市计算中...
  • 1篇北京拓尔思(...
  • 1篇中国科学院大...

作者

  • 18篇施水才
  • 16篇王斌
  • 7篇吕学强
  • 7篇肖诗斌
  • 5篇都云程
  • 5篇王涛
  • 5篇李渝勤
  • 5篇李亚楠
  • 4篇蒋在帆
  • 4篇马宏远
  • 4篇李鹏
  • 3篇张磊
  • 3篇徐燕
  • 3篇王弘蔚
  • 3篇靖红芳
  • 3篇张爱华
  • 2篇张玉杰
  • 2篇许洪波
  • 2篇刘松彬
  • 2篇马永成

传媒

  • 10篇中文信息学报
  • 6篇计算机研究与...
  • 5篇现代图书情报...
  • 3篇情报学报
  • 2篇北京机械工业...
  • 1篇计算机工程
  • 1篇计算机应用与...
  • 1篇江西师范大学...
  • 1篇第六届全国信...
  • 1篇第五届全国信...
  • 1篇第五届图像图...
  • 1篇第三届全国信...

年份

  • 4篇2012
  • 4篇2011
  • 10篇2010
  • 9篇2009
  • 9篇2008
  • 13篇2007
29 条 记 录,以下是 1-10
排序方式:
MySql嵌入式存储引擎的研究和实现
数据库是数据存储和查询的重要的工具,本文介绍了一种在 mysql 数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度,来设计数据存储格式,来具体的编写自己的存储引...
马永成肖诗斌王弘蔚施水才
关键词:存储引擎数据格式
文献传递
基于模板的网页主题信息抽取
快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明...
冯少卿都云程施水才
关键词:DOM网页样本集信息抽取
文献传递
基于类别分布的特征选择框架
极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特征在类别间的分布特点提出了基于类别分...
靖红芳王斌杨雅辉
文献传递
基于分解转移矩阵的PageRank迭代计算方法
提出了一种基于分解转移矩阵的 PageRank 的迭代计算方法。该方法对 PageRank 理论模型进一步推导, 把其 Markov 状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少 I/O 需求,使得 Pag...
刘松彬都云程施水才
关键词:PAGERANK搜索引擎矩阵分解
文献传递
网页结构模板生成新方法研究被引量:4
2007年
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。
冯少卿都云程
关键词:DOM样本集
基于句子相似度计算的信息抽取被引量:5
2007年
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算,对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试,取得较好效果。
廉站俊吕学强张玉杰施水才
关键词:信息抽取概率分布主题句子相似度计算
基于用户行为分析的个人信息检索研究被引量:11
2011年
个人信息检索是指个人计算机上用户搜索个人信息(通常是文档)的过程,与互联网检索相比,个人信息检索能够利用的信息很少,这使得其检索结果的排序更加困难。该文通过考察计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。该文考察的用户行为主要包括用户在检索系统中的查询行为和在计算机上的文件访问行为。该文一方面通过查询行为数据训练出结果排序函数,另一方面通过文件访问行为数据获取文件自身的权重,最后利用统计学习方法结合这两类行为的计算结果。实验结果表明,该文提出的方法好于传统的TFIDF排序方法。
蒋在帆王斌
关键词:用户行为统计学习RANKINGSVM
面向互联网舆情的热词分析技术被引量:17
2011年
热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。
李渝勤孙丽华
关键词:热词命名实体识别
非均衡文本分类中基于特征分布的抽样技术研究
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOT...
张爱华王斌徐燕
关键词:文本分类非均衡OVER-SAMPLING高斯混合模型
文献传递
基于RSS的分布式博客搜索引擎设计
构建一个基于 RSS 的 P2P 分布式博客搜索引擎。利用 Pastry 协议,实现分布式博客采集系统的数据存储和传输。在各子采集系统上分别建立索引,分散了系统维护庞大索引的重负。实现分布式查询, 提高了查询响应速度。利...
刘莉肖诗斌王涛施水才
关键词:RSSPASTRY分布式搜索引擎
文献传递
共5页<12345>
聚类工具0