岳磅
- 作品数:6 被引量:3H指数:1
- 供职机构:深圳大学更多>>
- 发文基金:国家自然科学基金深圳市基础研究计划项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 大量url数据任意字段索引及检索方法
- 本发明公开了一种大量url数据任意字段索引及检索方法,在建立索引时,包括以下步骤:反转url;按设定的切分长度对url进行切分成关键字;建立倒排索引表;在进行索引时,包括以下步骤:反转作为检索关键词的url片段;按设定的...
- 毛睿岳磅陆敏华
- 文献传递
- 一种结构化数据分布式索引及检索方法
- 本发明公开了一种结构化数据分布式索引及检索方法,使用MapReduce程序构建分布式局部索引架构的倒排索引表,并将索引表存入分布式列数据库;在建立索引时,包括以下步骤:选定常用列;建立倒排索引;实现分布式索引;在进行检索...
- 毛睿陆敏华李荣华王毅刘刚岳磅廖凯华
- 文献传递
- 构建信息检索系统:全局索引还是局部索引?
- 2013年
- 当今社会在生产与生活中产生的数据越来越多,要在海量的数据中搜索有用的信息,信息检索系统(IRS:Information Retrieval System,比如百度、谷歌等)是必不可少的工具。一个信息检索系统,特别是基于大规模数据集的信息检索系统,只有建立索引才能满足用户的检索需求,索引的好坏直接决定了信息检索系统的成败。数十年以来,对于信息检索系统中索引如何构建的研究一直没有中断,研究主要集中在对全局索引(Global Indexing)与局部索引(Local Indexing)及其混合类型(Hybrid Indexing)等结构的比较与探讨。本文详细介绍了几种索引的架构及其优缺点,回顾了相关的研究成果,分析了实际应用系统。最后,给出我们的观点与解决方案。
- 王海涛赵艳琼韩家鑫岳磅
- 关键词:信息检索混合索引大数据分布式系统
- 基于标题的中文新闻分类研究被引量:1
- 2013年
- 如何快捷、准确、全面地检索互联网信息是互联网时代的重要问题。网络新闻比传统纸质媒体新闻速度更快、内容更丰富、形式更灵活生动,正逐渐取代传统新闻媒体成为很多人获取新闻信息的主要途径。然而,面对快速更新的大量新闻信息,传统的手工分类方式无法满足用户的需求。新闻的主要内容一般都是以文本的方式呈现,因此,利用文本自动分类技术对网络新闻进行自动分类是解决手工新闻分类问题的一个有效途径。由于网络新闻信息形式多样,很多新闻内容完全是由图片或者视频组成,不包含文本内容。本文提出通过新闻标题对网络新闻进行分类的方法,比通过内容进行分类的方法分类速度更快,并且有更强的适应性,可对无文本内容的新闻(如图片新闻、标题新闻等)进行分类。本文创建了基于标题的文本分类模型;从网络上获取新闻语料,验证模型的工作情况;并通过与基于内容的文本分类方法比较,验证基于标题的文本分类模型的优劣。本文构建了基于标题的两步分类系统,所提出的类别唯一特征,对于可分样本可以实现高分类准确率。
- 王海涛赵艳琼岳磅
- 关键词:文本分类新闻分类语义相似度
- 大量url数据任意字段索引及检索方法
- 本发明公开了一种大量url数据任意字段索引及检索方法,在建立索引时,包括以下步骤:反转url;按设定的切分长度对url进行切分成关键字;建立倒排索引表;在进行索引时,包括以下步骤:反转作为检索关键词的url片段;按设定的...
- 毛睿岳磅陆敏华
- 应对海量数据检索:分布式局部索引的架构被引量:2
- 2013年
- 通过理论分析对全局和分布式索引架构进行了比较,分析了分布式全局索引架构所能够应对的数据规模的上界和分布式局部索引架构在特定数据规模下相应最优的机群规模等。可以证明,在海量数据背景条件下,由于需要求交集的查询结果数据量过大,会导致全局索引架构在查询结果求交集阶段处理时间过长,以致信息检索系统不能满足用户对系统响应时间的需求,因此局部索引架构会成为在面对海量数据时信息检索系统的必然选择。
- 张滇岳磅江小燕毛睿
- 关键词:分布式索引海量数据