天津市应用基础与前沿技术研究计划(07JCYBJC14500)
- 作品数:4 被引量:26H指数:3
- 相关作者:袁晓洁王鑫汪陈应窦志成何松柏更多>>
- 相关机构:南开大学中国人民解放军军事交通学院更多>>
- 发文基金:天津市应用基础与前沿技术研究计划天津市科技发展战略研究计划项目更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种Web问答系统中基于XML片段的语义项模型
- 问答网络论坛是一种重要的互联网服务形式.Yahoo Answers,Live QnA和百度知道均属此项服务.基于问答论坛所持有的大规模主题数据,可以建立诸多有价值的应用.自动问答系统就是其中之一,它在最近几年十分流行,尤...
- 于士涛袁晓洁师建兴杨娜
- 关键词:问答系统向量空间模型
- 文献传递
- 一种基于动态用户模型的个性化Web搜索算法
- 个性化Web搜索能够根据用户兴趣偏好为不同用户返回更符合其信息需求的个性化查询结果,是解决查询歧义性问题、提高搜索精度和用户满意度的有效途径.但用户查询复杂多样,基于用户所有历史查询而建立的静态用户模型往往不准确,降低了...
- 袁晓洁窦志成刘芳张路
- 关键词:用户模型用户兴趣搜索引擎
- 文献传递
- BSC:一种高效的动态XML树编码方案被引量:9
- 2008年
- 确定一篇XML文档中任意两个节点之间是否存在某种结构关系,是XML查询处理过程的一个重要组成部分。XML树编码方案为每个节点分配唯一编号,仅通过比较节点编号而不必访问原XML文档,就可以快速有效地确定节点间的结构关系。随着XML应用不断普及,能否高效地支持更新操作,已成为XML树编码方案研究的一个重要课题。本文基于二进制小数的特性,提出了一种新的XML树编码方案——BSC,它可以完全高效地支持XML更新操作而不需要重新编码。实验结果证明,与已有的动态编码方案相比,BSC编码无论在静态编码方面还是在动态更新方面都具有很好的性能。
- 汪陈应袁晓洁王鑫刘众奇
- 关键词:XML
- 一种Web问答系统中基于XML片段的语义项模型被引量:2
- 2007年
- 问答网络论坛是一种重要的互联网服务形式. Yahoo Answers,Live QnA和百度知道均属此项服务.基于问答论坛所持有的大规模主题数据,可以建立诸多有价值的应用.自动问答系统就是其中之一,它在最近几年十分流行,尤其当TREC的问答方向出现之后.然而,仅采用信息检索方法会造成大量语义信息未能充分利用,问答系统的性能不够令人满意.为利用更多信息,定义一种语义项模型,作为信息检索中文档标引项的改进.语义项以XML片段形式存储,利用语法结构,将自然语言处理中的语义信息引入信息检索.基于语义项而代替标引项构建的问答系统,上层信息检索模型不做任何改动即可得到改善,显示出更好的性能.
- 于士涛袁晓洁师建兴杨娜
- 关键词:问答系统向量空间模型
- XN-Store:一种原生XML数据库的存储方案被引量:3
- 2008年
- 随着XML相关标准的推广与应用,Web上出现了大量的XML文档.为了进行有效的管理,有必要将XML文档存储到数据库中.存储方案已成为XML数据管理领域研究的一个重要课题.将XML文档映射为关系表,存储到传统的RDBMS中,会破坏XML数据的树形结构,造成查询效率的下降.提出了一种新的用于原生XML数据库的存储方案——XN-Store.该方案基于索引结构将XML节点作为记录直接存储到分页文件中,建立起持久化文档对象模型,从而保持了XML数据原有的树形结构.XN-Store不仅降低了XML文档的存储空间开销,而且实现了XML节点的快速串行化输出和访问操作.作为通用的原生XML存储方案,XN-Store支持各种二级索引的创建,以提高XML查询处理的效率.采用多种数据集,分别在XN-Store和先前的XML存储系统上进行实验,比较存储空间、存储时间、串行化时间和节点访问时间.实验结果表明,XN-Store是一种高性能的原生XML数据库存储方案.
- 王鑫袁晓洁汪陈应张海威
- 关键词:XML树形结构原生索引
- 大规模中文搜索日志中查询重复性分析被引量:12
- 2008年
- 分析大规模中文搜索日志中的查询重复性,通过对查询重复率和用户个体查询重复率等数据的统计发现:查询串的查询频率、文档的点击频率及用户查询频率均符合Zipf分布,查询重复率较高。查询历史越长,查询重复率越高。高查询频率用户的查询重复率较高。以上数据为中文搜索引擎的改进提供了有力的依据。
- 窦志成袁晓洁何松柏
- 关键词:搜索引擎日志分析ZIPF分布