国家科技重大专项(2010ZX01042-003-004)
- 作品数:5 被引量:16H指数:2
- 相关作者:何震瀛陶岳张家琪胡昊李珀瀚更多>>
- 相关机构:复旦大学更多>>
- 发文基金:国家自然科学基金国家科技重大专项国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 关系数据库上基于元组组合的关键字查询被引量:9
- 2011年
- 在传统的关系数据库上进行关键字查询已经成为近来数据库领域的研究热点,现有的工作都是以单个元组作为结果单元来返回.为了满足用户对于返回多元组的要求,提出了基于元组组合的关键字查询的概念,并通过返回元组组合来响应查询.通过对问题的分析得到了一系列启发式剪枝策略,设计了一个综合的优化算法.通过一系列真实数据集和人工数据集上的实验,验证了优化算法在绝大部分情况下比最初的算法在性能上有了显著的提高.
- 陶岳何震瀛张家琪
- 关键词:关键字查询组合查询候选集关系数据库
- Graph Explorer:基于结构的大型网络可视系统被引量:1
- 2011年
- 视觉是人类观察理解事物的最直接的途径.在社会网络、生物网络等大型网络的研究与分析中,视觉依然是发现其中蕴含知识的重要途径之一.为了使用户更好地观测网络,本系统利用快速社区挖掘算法对网络的结构信息进行分析,并将其应用于网络可视化,从而实现实时、层次化地大网络展示.系统由结构分析器,缓冲管理器和视觉器3个模块组成.系统可以根据用户需求,观测网络的局部细节或者高层次结构.
- 余韬肖仰华徐晓旻何震瀛
- 关键词:大网络可视化
- 层次数据上关键字检索的结果聚合被引量:2
- 2011年
- 由于使用方便等优点,数据库上的关键字检索技术使用户可以得到所需信息而不必书写复杂的SQL语句.但大部分现有的检索方法都关注通过连接操作得到包含所有关键字的元组连接树,忽略了对于检索结果的信息整合,这从某种程度上影响了用户对于检索结果的判断.文中提出并实现一种改进的关键字检索系统框架,在具有层次结构的属性指导下对得到的元组连接树结果做聚合操作,通过寻找最低层次最小覆盖聚合将关系更为紧密的元组作为更加相关的检索结果反馈给用户.文中还提出了基本的聚合算法并对其做改进从而减少了系统的响应时间.同时,为了改善用户体验,文中定义并给出了检索结果的摘要问题及其算法,使用户最大程度地了解检索结果.实验数据表明,文中的方法能够以较高的效率和较低的计算代价有效地完成检索结果的聚合和摘要.
- 胡昊何震瀛
- 关键词:关键字检索
- GCPR:一种在MapReduce平台上基于图划分的PageRank加速方法被引量:2
- 2012年
- 随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率.
- 廖松博陶岳何震瀛汪卫
- 关键词:PAGERANKMAPREDUCE图划分
- 一种基于链接聚类的查询扩展算法被引量:2
- 2011年
- 潜在语义分析(LSA)是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从其中挖掘出词语之间的潜在联系.LSA有效地解决了一义多词的问题,但是,由于LSA在大矩阵的计算效率和存储上的不足,这限制了LSA在大规模数据集上的应用.另一方面,在关系数据库中,数据对象通过多种类型的链接连接到一起.这些链接中蕴藏了丰富的语义信息.数据对象之间的相似性也可以通过这些链接体现出来.针对这个特点,提出了一种基于链接聚类的查询算法:利用数据对象之间的链接对数据对象进行聚类,用聚类代替文档来进行LSA处理,有效地减少处理文档的个数;在检索的过程中,寻找与关键字序列相似度最接近的簇,然后将簇内的文档返回给用户.实验结果表明,所提出的方法能够充分利用数据对象之间的链接,聚类效果明显;利用聚类后进行LSA处理,能够成倍地提高空间和时间开销,对精确度有提高作用.
- 李珀瀚何震瀛向河林
- 关键词:潜在语义分析查询扩展