公共文化服务平台

不确定数据库中基于x-tuple的高效Top-k查询处理算法: Top-k查询由于其广泛的应用而倍受欢迎。不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的可选元组。U-kRanks查...; 刘德喜万常选刘喜平; 关键词：TOP-K 不确定数据库动态规划算法; 文献传递

XML文本自动文摘研究综述被引量：1: 2009年; 介绍了XML文本自动摘要的研究现状,对现存的XML文本自动文摘技术进行了分析和评估,论述了目前该研究方向上尚未解决的一些问题和未来的发展趋势。; 刘德喜吴世汉万常选; 关键词：自动文摘面向查询

有效的XML模糊内容与结构检索和计分被引量：5: 2010年; XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索.提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结点的计分,而不是答案结点的选择.这种方法分3步进行:首先,一个CAS查询被分解为若干个查询片段;然后处理每个查询片段;最后,将每个查询片段得到的部分查询结果综合起来,得到最终的查询结果.提出了一种新的计分方案,它首先计算一个查询结果在每个查询片段上的得分,然后将这些得分总和起来得到最终得分.提出的计分方法根据检索结果内容和结构两方面的相关性计分,更符合用户查询意图和查询语义.大量的实验结果验证了提出方法的有效性.; 刘喜平万常选刘德喜; 关键词：XML 信息检索

基于XML的检索结果聚类方法被引量：6: 2010年; 针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。; 余宏万常选; 关键词：内容相似度聚类算法

中文分词现状及未来发展被引量：11: 2009年; 中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求。本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展,并对其未来发展方向进行了展望。; 熊泉浩; 关键词：中文分词分词技术自然语言处理

基于聚类和词组抽取的XML查询扩展被引量：2: 2010年; 查询扩展技术通过向初始查询请求加入相似或相关的词,组成更为准确的扩展查询表达式,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能。与传统的查询扩展不同,XML查询扩展不仅要对文档内容进行有效扩展,而且还要考虑结构扩展。本文提出了一种基于伪反馈的XML查询扩展方法,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的“内容＋结构”的查询扩展表达式。相关实验结果表明,相对没有扩展的查询,所提方法具有更好的精度。; 钟敏娟万常选焦贤沛; 关键词：XML 聚类

有效的XML模糊内容与结构检索和计分: XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索。提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结点的计分,而不是答案结点的选择。这种...; 刘喜平万常选刘德喜; 关键词：XML 信息检索; 文献传递

XML检索中基于聚类的查询词扩展被引量：3: 2009年; XML文档是一种半结构化的数据,它包含的结构信息可有效解决传统文本信息检索中存在的语言二义性等问题。但用户提出的查询质量低并没有得到解决,因此需要通过反馈等手段来解决这一问题。该文提出了一种基于聚类的XML信息检索的查询词扩展方法,利用聚类手段来确定用户查询的对应检索结果的特征,通过提取这些特征来进行查询词扩展,得到更全面的反映用户查询意图的查询条件,提高检索的查全率与查准率。; 黄子越万常选; 关键词：聚类信息检索查询扩展 XML文档

基于随机冲浪模型的XML文摘句子重排: 在使用句子抽取的方法对多文档的XML文本进行文摘的过程中,必须通过对句子进行重排才能得到一个逻辑合理、内容连贯、可读性好的文摘.提出一种基于随机冲浪模型的方法对XML文摘进行句子重排.通过句子间的顺序关系(时间顺序、前后...; 刘德喜吴世汉吴通; 关键词：主题相关性; 文献传递

不确定数据库中基于x-tuple的高效Top-k查询处理算法被引量：4: 2010年; Top-k查询由于其广泛的应用而倍受欢迎.不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的可选元组.U-kRanks查询考虑x-tuple中每个可选元组排在前k的概率,并返回最可能排在前k的k个元组.已有的Top-k语义都没有将x-tuple作为一个整体,因此,定义了一种新的Top-k查询语义,不确定x-kRanks查询(U-x-kRanks),该Top-k语义返回最可能排在前k的k个x-tuple而非元组.新语义考虑x-tuple中的每个可选元组位于前k的概率,并将之汇集,得到整个x-tuple位于前k的概率.提出了一种基于动态规划的有效算法处理U-x-kRanks查询,在最小的搜索空间内完成查询处理过程.不同数据集合上的综合实验显示,所提出的算法是高效的.; 刘德喜万常选刘喜平; 关键词：TOP-K 不确定数据库动态规划算法

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家社会科学基金(07BTQ025)