暴筱
- 作品数:2 被引量:9H指数:1
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 分布式聚焦爬虫系统设计与自动模板生成研究
- 随着互联网的普及和网络数据量的迅速膨胀,网络信息抽取和整合变得尤为重要。当前,网络上存在大量的信息,这些信息以结构化的形式存储在网站的后台数据库中,通过模板包装成网页向用户展示。为了从这些网站抽取信息,最终获取并整合这些...
- 暴筱
- 关键词:网络信息挖掘自然语言处理后台数据库
- 基于概念网络的短文本分类方法被引量:9
- 2010年
- 针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络,在此基础上定义概念网络间的语义相似度,从而实现档案的自动分类。实验结果表明,相比传统基于特征选择的短文本分类方法,该方法的分类错误率下降了24.2%,可有效改善系统性能。
- 林小俊张猛暴筱李军吴玺宏
- 关键词:概念网络文档相似度领域本体