您的位置: 专家智库 > >

陈欣

作品数:2 被引量:7H指数:2
供职机构:北京工业大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划北京市自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇图像
  • 1篇图像获取
  • 1篇朴素贝叶斯
  • 1篇朴素贝叶斯分...
  • 1篇朴素贝叶斯分...
  • 1篇网页
  • 1篇网页识别
  • 1篇文本分类
  • 1篇文本分类方法
  • 1篇新词识别
  • 1篇类方
  • 1篇分类器
  • 1篇贝叶斯
  • 1篇贝叶斯分类
  • 1篇贝叶斯分类器
  • 1篇HTML
  • 1篇MFC

机构

  • 2篇北京工业大学

作者

  • 2篇卓力
  • 2篇陈欣
  • 1篇李晓光
  • 1篇张菁

传媒

  • 2篇测控技术

年份

  • 1篇2011
  • 1篇2009
2 条 记 录,以下是 1-2
排序方式:
面向敏感网页识别的网页内容获取方案的设计与实现被引量:4
2009年
面向敏感网页识别,设计并实现了一种网页内容获取方案。该方案主要包括HTML(Hypertext Markup Language)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容。测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所获取的内容可以满足后续敏感网页识别的应用需求。
陈欣卓力
关键词:MFCHTML图像获取
一种面向中文敏感网页识别的文本分类方法被引量:3
2011年
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库。根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类器进行了改进。考虑到不同的人群对敏感概念的主观理解差异较大,将待识别网页的敏感度值作为分类器的输出。实验结果表明,与现有的文本分类方法相比,所提出的文本分类方法可以获得更好的识别效果。
陈欣张菁李晓光卓力
关键词:新词识别朴素贝叶斯分类器
共1页<1>
聚类工具0