国家自然科学基金(60803080)
- 作品数:4 被引量:14H指数:3
- 相关作者:沈阳田晨耕沈劲枝寇文波刘扬更多>>
- 相关机构:武汉大学华中师范大学更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于特征定位边界预测的Web档案正文采集被引量:5
- 2009年
- 提出基于特征定位边界预测的Web主题型页面的采集方法,以达到高速抽取互联网档案有效内容的目的。开发ROST CM、ROST TextExtractor两个软件工具构建训练集并进行测试。理论和实验表明,本算法适用于中文简体、繁体、英文网页,能够很好地适应新闻以及博客类Web档案的管理方式。
- 沈劲枝寇文波田晨耕
- 关键词:档案采集正文抽取信息抽取网页分析
- 相关词句采集与分析研究被引量:1
- 2009年
- 针对目前互联网中相关词句集来源狭窄、没有对相关词的相关性判定公式进行多角度考虑和深层次理论分析等问题,实现相关词采集和分析原型,通过对相关词句集进行去重处理,并利用RSIS、RMRD和DDRW三种方法进行相关词重新排序。将相关词分成五类进行相关词特性分析,并在实证实验中对搜索引擎进行人工和机器混合评测。
- 沈阳朱婵元周子轩
- 关键词:相关词元搜索引擎
- 社会性人物搜索研究被引量:4
- 2009年
- 分析社会搜索和社会性人物搜索的相关研究,给出人物搜索和社会性人物搜索的定义、特点及一般流程,对近年来社会性人物搜索的热点事件分析,基于上述研究,进一步给出社会搜索的过程框架和工具软件,并完成第一阶段的软件开发,发布了ROST系列社会性人物搜索工具。
- 沈阳李舒晨田晨耕
- 关键词:人肉搜索情报分析社会计算