张万桢
- 作品数:2 被引量:0H指数:0
- 供职机构:桂林电子科技大学计算机科学与工程学院更多>>
- 发文基金:广西壮族自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于差异频度的类别空间模型的二值分类
- 2010年
- 针对目前文本分类中对向量空间模型的依赖以及文档频率(DF)特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现了二值分类功能。实验结果表明,改进的方法是有效的,其分类结果中精确率、召回率、F1测试值均有改善,提高了分类的准确率。并且本文的方法在其他领域的二值分类中同样值得借鉴。
- 蒋华刘同来张万桢
- 关键词:文本分类向量空间模型
- 一种基于数据库去除网页噪音的有效方法
- 2010年
- 由于网页中大都包含有如广告、版权信息、导航链接等噪音,严重影响了网页数据的自动收集和挖掘。通过一种基于数据库去除网页噪音的有效方法,对网页噪音的处理不用将内容全部放入内存中,而是根据数据库中保存的table和div容器包含内容重复度进行消除噪音操作,一定程度上达到了净化网页的目的。将此方法应用于基于差异频度的类别空间模型的二值分类,结果表明本文提出的网页去噪方法是有效的,并且分类的正确率有了一定的改进。
- 刘同来蒋华张万桢
- 关键词:数据库网页噪音