您的位置: 专家智库 > >

北京市自然科学基金(4062018)

作品数:4 被引量:92H指数:4
相关作者:彭京唐世渭杨冬青蒋汉奎付艳更多>>
相关机构:成都市公安局北京大学教育部更多>>
发文基金:中国博士后科学基金北京市自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇会议论文

领域

  • 5篇自动化与计算...

主题

  • 2篇相似度
  • 2篇内积
  • 2篇内积空间
  • 2篇聚类
  • 2篇聚类算法
  • 2篇积空间
  • 2篇概念相似度
  • 1篇数据挖掘
  • 1篇文本聚类
  • 1篇文本聚类算法
  • 1篇向量
  • 1篇向量空间
  • 1篇可扩展
  • 1篇可扩展标记语...
  • 1篇扩展标记语言
  • 1篇基于语义
  • 1篇编码方法
  • 1篇NEW
  • 1篇PROCES...
  • 1篇XML

机构

  • 4篇北京大学
  • 3篇成都市公安局
  • 1篇四川大学
  • 1篇教育部

作者

  • 3篇杨冬青
  • 3篇彭京
  • 2篇王腾蛟
  • 2篇唐世渭
  • 2篇高军
  • 1篇程温泉
  • 1篇付艳
  • 1篇乔少杰
  • 1篇蒋汉奎
  • 1篇孙勇义
  • 1篇石葆梅
  • 1篇唐常杰

传媒

  • 2篇计算机学报
  • 1篇Scienc...
  • 1篇中国科学:信...

年份

  • 1篇2009
  • 2篇2008
  • 2篇2007
4 条 记 录,以下是 1-5
排序方式:
一种更新友好的基于分数的XML编码方法
由于XML已经成为网络环境中数据表示和交换的标准,如何实现高效的XML查询处理就尤为重要。目前XML区间编码是一种重要的编码方式,但是区间编码不适合XML数据频繁的更新。针对这一问题,基于XML树的结构,提出了一种利用分...
孙勇义高军王腾蛟杨冬青
关键词:可扩展标记语言XML更新
文献传递
一种基于语义内积空间模型的文本聚类算法被引量:58
2007年
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
彭京杨冬青唐世渭付艳蒋汉奎
关键词:内积空间文本聚类概念相似度
A new similarity computing method based on concept similarity in Chinese text processing被引量:4
2008年
The paper proposes a new text similarity computing method based on concept similarity in Chinese text processing. The new method converts text to words vector space model at first, and then splits words into a set of concepts. Through computing the inner products between concepts, it obtains the similarity between words. The new method computes the similarity of text based on the similarity of words at last. The contributions of the paper include: 1) propose a new computing formula between words; 2) propose a new text similarity computing method based on words similarity; 3) successfully use the method in the application of similarity computing of WEB news; and 4) prove the validity of the method through extensive experiments.
PENG JingYANG DongQingTANG ShiWeiWANG TengJiaoGAO Jun
一种基于层次距离计算的聚类算法被引量:15
2007年
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algo-rithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果.
彭京唐常杰程温泉石葆梅乔少杰
关键词:聚类数据挖掘
基于概念相似度的文本相似计算被引量:17
2009年
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性.
彭京杨冬青唐世渭王腾蛟高军
关键词:概念相似度向量空间内积空间
共1页<1>
聚类工具0