您的位置: 专家智库 > >

文献类型

  • 6篇专利
  • 1篇期刊文章

领域

  • 3篇自动化与计算...

主题

  • 3篇网页
  • 2篇信息处理
  • 2篇信息处理技术
  • 2篇信息过载
  • 2篇语料
  • 2篇语料库
  • 2篇正文抽取
  • 2篇数据库
  • 2篇平行语料
  • 2篇平行语料库
  • 2篇情报
  • 2篇全文检索数据...
  • 2篇网页正文
  • 2篇网站
  • 2篇网站数据
  • 2篇文本块
  • 2篇解码
  • 2篇解码算法
  • 2篇科技情报
  • 2篇标点

机构

  • 7篇中国电子科技...

作者

  • 7篇袁林
  • 7篇贲兴龙
  • 4篇王睿
  • 3篇袁翔
  • 3篇冯燕来
  • 2篇贾大文
  • 1篇程浚
  • 1篇王稳军
  • 1篇唐志军
  • 1篇刘格

传媒

  • 1篇计算机与数字...

年份

  • 1篇2020
  • 1篇2019
  • 1篇2018
  • 2篇2017
  • 1篇2015
  • 1篇2014
7 条 记 录,以下是 1-7
排序方式:
一种基于语义的科技情报处理方法及系统
本发明公开了一种基于语义的科技情报处理方法及系统,属于数据处理技术领域,其中该方法包括以下步骤:获取网站数据;根据中英双语平行语料库,通过解码算法将网站数据进行中/英文翻译;根据翻译后的网站数据,生成摘要;根据摘要进行分...
袁林韩国辉贲兴龙陈晓琳梁增玉马旭冯燕来王睿苏雪阳黄明魁
文献传递
一种基于语义的科技情报处理方法及系统
本发明公开了一种基于语义的科技情报处理方法及系统,属于数据处理技术领域,其中该方法包括以下步骤:获取网站数据;根据中英双语平行语料库,通过解码算法将网站数据进行中/英文翻译;根据翻译后的网站数据,生成摘要;根据摘要进行分...
袁林韩国辉贲兴龙陈晓琳梁增玉马旭冯燕来王睿苏雪阳黄明魁
一种网页正文抽取方法及装置
本发明公开了一种网页正文抽取方法及装置,属于信息处理技术领域,其中该方法包括以下步骤:获取网页HTML源码中的标题内容;获取网页HTML源码中所有文本块的路径,并建立文本块路径列表;将标题内容与每个文本块的文本块内容进行...
贲兴龙苏雪阳韩国辉袁林陈晓琳王睿刘志明袁翔
文献传递
一种基于聚类算法的群组识别方法
本发明提出一种基于聚类算法的群组识别方法,属于信息处理技术领域。所述方法以多个目标的状态信息为分析对象,包括粗聚类和层次聚类两个步骤。首先提取目标特征,包括经度、纬度、高度、速度大小及方向;接着采用均值漂移算法对目标归一...
陈晓琳袁林韩国辉贲兴龙唐志军贾大文程浚冯燕来袁翔王稳军
文献传递
一种面向大规模网页去重的三层分布式架构被引量:2
2015年
去除重复网页是网页爬取过程中必要的步骤,目前人们对网页去重方法的研究集中在基于网页内容相似的去重算法本身的准确性和算法复杂度上。论文提出一种面向大规模网页去重的三层分布式架构,其利用本地缓存、分布式缓存及分布式索引高效地判断重复网页,特别适用于网页内容更新频繁需要反复爬取的应用场景。实验分析结果表明论文提出的三层分布式架构可以支持分布式网络爬虫环境下大规模的网页去重需求,并且具有较好的可扩展性。
贲兴龙贾大文袁林
关键词:网页去重网络爬虫分布式架构
一种网页正文抽取方法及装置
本发明公开了一种网页正文抽取方法及装置,属于信息处理技术领域,其中该方法包括以下步骤:获取网页HTML源码中的标题内容;获取网页HTML源码中所有文本块的路径,并建立文本块路径列表;将标题内容与每个文本块的文本块内容进行...
贲兴龙苏雪阳韩国辉袁林陈晓琳王睿刘志明袁翔
文献传递
面向多源信息领域的说话人自适应语音情感识别方法
本发明公开了一种面向多源信息领域的说话人自适应语音情感识别方法,包括如下步骤:(1)获取多源语音情报语料,对所述多源语音情报语料进行语音增强处理;(2)对步骤(1)处理后的语音情报提取情感特征;(3)对提取的情感特征建立...
张昕然袁林王贤哲贲兴龙韩国辉刘格丁頠洋
文献传递
共1页<1>
聚类工具0