国家自然科学基金(60703015)
- 作品数:3 被引量:45H指数:3
- 相关作者:王晓龙徐军丁宇新郭鸿志吴永辉更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- HowNet与维基百科知识融合中的义类属性自动构建方法
- 本文提出了一种开放语义知识库构建方法来融合《知网》和以Wikipedia为代表的百科全书,保留《知网》中的语义信息和Wikipedia中的丰富资源及其知识框架,通过在两种知识库间建立一个映射关系,构造了一个大规模、带有语...
- 崔磊陈清才郭鸿志王晓龙
- 关键词:语义知识库WIKIPEDIA
- 文献传递
- 面向真实环境的问句分析方法被引量:11
- 2010年
- 面向真实环境的问答系统是近年来研究的热点,针对系统中问句的复杂性,提出问句信息块标注的分析方法——QICA.该方法将问句信息分为五类,通过标注这五类信息,将问句从表层的文字空间映射到结构化的语义空间.结合大间隔马尔可夫模型实现了自动标注系统.将QICA结果应用于问句复述识别问题,验证了该方法的有效性.
- 范士喜王晓龙王轩张耀允
- 关键词:问答系统
- 基于主题的自适应、在线网络热点发现方法及新闻推荐系统被引量:29
- 2010年
- 本文提出了一种基于改进HotRank算法的站点排序及种子URL选择方法,建立了在线主题发现系统信息采集自适应增量更新模型;结合LDA模型和仿射传播聚类算法(AP),提出了一种网络主题发现和热点新闻推荐方法,并在海天园知识服务平台热点新闻推荐系统中得到了应用.
- 吴永辉王晓龙丁宇新徐军郭鸿志
- 关键词:知识服务主题发现自适应LDA模型仿射传播聚类
- 基于最大频繁项集的搜索引擎查询结果聚类算法被引量:5
- 2010年
- 现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。
- 苏冲陈清才王晓龙孟宪军
- 关键词:中文信息处理搜索引擎网页聚类频繁项集