施洋
- 作品数:4 被引量:13H指数:2
- 供职机构:复旦大学更多>>
- 发文基金:上海市科委重大科技攻关项目国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术环境科学与工程更多>>
- 一种基于HTML流处理的数据采集方法和系统
- 本发明属于网页信息抽取技术领域,具体是一种基于HTML数据流处理的数据采集方法和系统。它由多线程收集器和下载控制模板以及数据存储系统构成。多线程收集器保证了工作速度,下载控制模板保证了工作的准确性。本系统可以在通过简单的...
- 施洋张奇黄萱菁
- 文献传递
- 模板独立的网页信息抽取研究
- 随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过各种方式来获取这些信息。因此使用网页信息抽取技术,自动地...
- 施洋
- 关键词:网页信息抽取
- 文献传递
- 上海市大气亚微米级颗粒物(PM1)污染特征与霾污染形成机制
- 大气颗粒物通过影响辐射强迫、大气化学及成云致雨过程,改变地-气系统内部的辐射能量收支与水循环,对全球气候变化产生重要的影响。此外颗粒物在空气污染所产生的健康效应中扮演非常重要的角色。近年来,我国空气污染加剧,能见度不断降...
- 施洋
- 关键词:环境保护
- 含有语义特征的网页新闻自动抽取被引量:6
- 2010年
- 通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。
- 施洋张奇黄萱菁
- 关键词:语义特征