曾依灵
- 作品数:15 被引量:133H指数:6
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于空间映射及尺度变换的聚类框架
- 传统聚类算法通常建立在显式的模型之上,却很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,本文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具...
- 曾依灵许洪波吴高巍程学旗白硕
- 关键词:文本聚类空间映射
- 文献传递
- 改进的OPTICS算法及其在文本聚类中的应用被引量:36
- 2008年
- 基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。
- 曾依灵许洪波白硕
- 关键词:计算机应用中文信息处理密度聚类文本挖掘
- 一种文本维度压缩及尺度调整方法以及基于此的分类方法
- 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本x<Sub>j</Sub>;2)根据训练集中的样本x计算文本x<Sub>j</Sub>待投影的k个方向,其中k为文本x<Sub>j<...
- 曾依灵许洪波吴高巍
- 文献传递
- 用遗传算法寻找OLSR协议的最小MPR集被引量:27
- 2006年
- 节点可以自由、自主地进入网络拓扑的特性,使得移动Adhoc网络(mobileadhocnetwork,简称MANET)被广泛应用于诸如灾难救援、战场等多种环境中.MANET中的路由要能迅速地适应频繁的网络拓扑结构的变化,同时最大限度地节约网络资源.OLSR(optimizedlinkstateroutingprotocol)协议是一个重要的MANET路由协议,而支撑此协议的一个关键技术是MPR(multipointrelays).在介绍了OLSR协议及MPR技术之后,揭示了目前启发式算法在寻找最小MPR上的弱点,提出了一种基于遗传算法(geneticalgorithm,简称GA)的新算法,并证明了该算法的收敛性.通过采用不同遗传策略将此遗传算法衍生成了4个系列算法,并在随机生成的拓扑上对其进行模拟.模拟结果分析显示:提出的遗传算法是可行和适用的,选择的启发式策略也是恰当和正确的.
- 张信明曾依灵干国政陈国良
- 关键词:OLSRMPR启发式算法遗传算法网络拓扑
- 网络热点信息发现研究被引量:35
- 2007年
- 为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TDT国际标准评测语料上算法表现出令人满意的性能。
- 曾依灵许洪波
- 关键词:未登录词识别
- 一种基于空间映射及尺度变换的聚类框架
- 传统聚类算法通常建立在显式的模型之上,却很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,本文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具...
- 曾依灵许洪波吴高巍程学旗白硕
- 关键词:空间映射
- 文献传递
- 一种基于空间映射及尺度变换的聚类框架被引量:2
- 2010年
- 传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。
- 曾依灵许洪波吴高巍程学旗白硕
- 关键词:计算机应用中文信息处理文本聚类空间映射
- 改进的OPTICS算法及其在文本聚类中的应用
- 基于密度的 OPTICS 聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对...
- 曾依灵许洪波白硕
- 关键词:密度聚类文本挖掘
- 文献传递
- 网络热点信息发现研究
- 网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了有效挖掘海量网络数据中的热点信息,本文设计了网络热点信息发现算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与多级滤噪策略严格控制拼接过程,在合理收录策略的挑选...
- 曾依灵许洪波
- 关键词:未登录词识别
- 文献传递
- 基于扩展领域模型的有名属性抽取被引量:13
- 2010年
- 网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.
- 王宇谭松波廖祥文曾依灵
- 关键词:信息抽取属性抽取