主存键值(key-value,KV)数据库具有高效性、易用性和可扩展性。由于主存容量有限,一些数据量较大的应用必须使用磁盘进行数据交换。而固态硬盘(solid state disk,SSD)有高速的随机读特点,使用固态硬盘作为主存KV数据库的虚拟内存会提高对不在主存中的数据的读性能。但是固态硬盘的随机写性能较差,于是提出了针对固态硬盘的写缓冲区优化算法,将多个随机写转化为一个连续写,并设计了固态硬盘虚拟内存的垃圾回收机制,将多个随机写转化为一个连续读和一个连续写,从而提高主存KV数据库的性能。通过改写源代码,将该虚拟内存管理应用于Redis中,并进行了实验测试,结果表明该虚拟内存管理的性能比原有性能最大提升了40%。
联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC Fed Web 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在Fed Web 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在Fed Web 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。