您的位置: 专家智库 > >

袁琴

作品数:7 被引量:4H指数:1
供职机构:广东工业大学更多>>
发文基金:国家自然科学基金广东省科技计划工业攻关项目NSFC-广东联合基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇专利
  • 2篇期刊文章
  • 1篇学位论文

领域

  • 5篇自动化与计算...

主题

  • 4篇子树
  • 3篇频繁子树
  • 3篇相似度
  • 3篇抽取
  • 3篇STORM
  • 2篇调度
  • 2篇调度模块
  • 2篇信息抽取
  • 2篇数据封装
  • 2篇爬虫
  • 2篇网络
  • 2篇网络爬虫
  • 2篇网页
  • 2篇网页结构
  • 2篇相似度算法
  • 2篇集群
  • 2篇加权
  • 2篇分布式
  • 2篇封装
  • 1篇对齐

机构

  • 7篇广东工业大学
  • 1篇佛山科学技术...

作者

  • 7篇袁琴
  • 6篇蔡瑞初
  • 6篇郝志峰
  • 4篇陈炳丰
  • 2篇温雯

传媒

  • 1篇计算机应用研...
  • 1篇广东工业大学...

年份

  • 1篇2019
  • 1篇2018
  • 3篇2017
  • 2篇2016
7 条 记 录,以下是 1-7
排序方式:
基于Storm的产品评论信息实时采集方法
本发明公开了基于Storm的产品评论信息实时采集方法,该方法在基于Storm平台的采集系统进行,该方法包括产品抓取模块周期性的从网络中抓取数据,预处理模块根据产品Id初始化产品的属性参数,调度模块将数据封装成Tuple发...
郝志峰骆魁永蔡瑞初陈炳丰袁琴
文献传递
一种网页评论内容的抽取方法
一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区...
郝志峰袁琴蔡瑞初陈炳丰骆魁永
一种基于Storm的在线产品评论信息采集的方法被引量:1
2017年
针对如何尽早地获取电商网站中产品的评论信息,进而实时地把握产品舆情,提出了一种基于Storm的在线产品评论信息采集方法.该方法将流计算的概念应用于网络爬虫中,并通过SHHD算法对采集周期进行动态调整.实验结果表明:基于Storm平台进行信息采集具有吞吐量大、可扩展性强等优点;SHHD算法可以有效地降低采集系统对网络带宽和系统资源的消耗,实现了适应性的增量的在线产品评论信息采集过程;SHHD在产品的评论信息获取的滞后时间上较Poisson、SART等方法具有明显的优势.
骆魁永郝志峰蔡瑞初温雯袁琴
关键词:STORM适应性
基于Storm的产品评论信息实时采集方法
本发明公开了基于Storm的产品评论信息实时采集方法,该方法在基于Storm平台的采集系统进行,该方法包括产品抓取模块周期性的从网络中抓取数据,预处理模块根据产品Id初始化产品的属性参数,调度模块将数据封装成Tuple发...
郝志峰骆魁永蔡瑞初陈炳丰袁琴
基于频繁子树挖掘的网页评论信息抽取
随着大数据时代的发展,同时受网购规模的迅速增加、商家对评论的鼓励措施等影响,网络产品评论信息急剧增长。海量产品评论信息是商家和消费者进行需求调研或购物决策时的巨大信息宝矿。因此从大量的结构迥异的带有评论信息的网页中快速准...
袁琴
关键词:信息抽取数据挖掘
基于加权频繁子树相似度的网页评论信息抽取被引量:3
2017年
针对现有网页信息抽取方法普遍存在人工耗时大、抽取准确率低等问题,提出了一种基于加权频繁子树相似度的网页评论信息抽取方法 WTS。首先通过视觉特征对网页进行剪枝处理;然后,通过深度加权的相似度度量方法抽取最佳频繁子树;最后,通过子树对齐方法抽取评论路径并解析评论内容。通过对京东、苏宁等网站的评论内容抽取实验,验证了WTS方法比D-EEM、POL等方法在抽取产品评论信息上具有一定的优势。
郝志峰袁琴蔡瑞初温雯骆魁永
关键词:抽取
一种网页评论内容的抽取方法
一种网页评论内容的抽取方法,包括以下步骤:获取网页源码;将网页源码转换成DOM树结构,基于位置、文本长度和布局特征对DOM树进行剪枝预处理;通过深度加权子树相似度算法抽取最佳频繁子树;通过树的一致性对齐方法求出最小评论区...
郝志峰袁琴蔡瑞初陈炳丰骆魁永
文献传递
共1页<1>
聚类工具0