国家自然科学基金(61303004) 作品数:5 被引量:18 H指数:3 相关作者: 张东站 林子雨 冯少荣 曾聪 苏志锋 更多>> 相关机构: 厦门大学 更多>> 发文基金: 国家自然科学基金 福建省自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于关系数据库的top-k聚合关键词查询 被引量:3 2014年 基于关系数据库的关键词查询,使得用户在不需要掌握结构化查询语言和数据库模式的情况下,可以方便地进行关系数据库查询.给定一个关键词查询,已有的方法通过数据库中的主外键关联,查询得到包含关键词的元组集合.但是,在很多实际应用中,元组集合的聚合结果对用户更有价值;研究了基于关系数据库的top-k聚合关键词查询,提出了基于递归的聚合单元枚举算法——基于递归的完全搜索(recursion-based full search,RFS).为了获得更好的查询性能,设计了新的排序方法、二维索引和快速搜索算法——基于输出的快速搜索(output-based quick search,OQS),从而可以高效地枚举top-k个聚合单元;在不同的数据集上进行了大量的实验,实验结果表明OQS算法具有良好的查询性能. 张东站 苏志锋 林子雨 薛永生关键词:关系数据库 排序 基于逆概念频率的词语相似度计算 被引量:1 2015年 词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%. 孙晶 张东站关键词:知网 词语相似度 基于同义词词林和《知网》的短语主题提取 被引量:8 2015年 提出了利用主题词存在与否的基于主题词的短语抽取算法,并在其基础上利用社会知识词簇集合作为分类信息,词的相似度作为距离权重,利用改进K最近邻分类算法(KNN)的分类思想,提出基于《知网》词相似度的短语主题抽取算法.并在其基础上提出一种根据中文表达习惯的基于加权主题词的短语主题抽取算法.实验结果表明,后两种算法对短语主题抽取效果良好,平均查全率分别达到78.88%和83.39%,平均查准率达99.06%和99.70%. 曾聪 张东站关键词:主题抽取 同义词词林 知网 基于改进k-medoids算法的XML文档聚类 被引量:4 2015年 XML文档由于其自身的可扩展性、半结构化和自描述性等特点,已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间,提高数据查询的效率,挖掘出潜在的信息价值。为此,提出一种改进的k-medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数,利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心,从而提高大规模XML文档集的聚类质量。实验结果表明,与基于传统k-medoids算法的聚类方法相比,改进的聚类方法具有较高的聚类准确性和收敛度。 冯少荣 潘炜炜 林子雨关键词:遗传算法 模糊聚类 聚类个数 聚类中心 一种新的多分类代价敏感算法 被引量:2 2017年 为了提高代价敏感分类算法MetaCost的准确率,降低错分代价,提出了多类别问题下的一种代价敏感分类算法(简称D-MetaCost算法).该算法利用MetaCost算法,通过多次取样生成多个模型,依据它们的分类准确率,选择其中准确率较高的前几个基分类器,将它们与最后阶段新生成的分类器聚集在一起得到最终分类模型.实验表明,D-MetaCost算法在准确率和代价方面比经典的MetaCost算法有明显的改进和提高. 邓少军 冯少荣 林子雨