尹中航
- 作品数:17 被引量:128H指数:6
- 供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- SVMs-支持向量机A
- 随着信息的迅速增加,文本分类已经成为信息管理的一项关键技术.现有方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时难以取得理想的效果。该文介绍了一种可广泛应用在网上进行文本信息分类的SVMs方法,是由V...
- 尹中航王永成蔡巍
- 关键词:支持向量机
- 文献传递网络资源链接
- 利用串匹配技术实现网上新闻的主题提取(英文)被引量:17
- 2002年
- 从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言.
- 尹中航王永成蔡巍韩客松
- 关键词:网页信息处理网上新闻主题提取自然语言处理
- 一种无词典的从Web新闻页面抽取主题的算法被引量:2
- 2008年
- 主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典+匹配”,但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法。我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上。
- 蔡巍王永成尹中航
- 关键词:主题提取WEB页面超链接
- 基于网上新闻语料的Web页面自动分类研究被引量:3
- 2010年
- Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。
- 蔡巍王英林尹中航
- 关键词:超文本主题提取
- SVMs-支持向量机A
- 随着信息的迅速增加,文本分类已经成为信息管理的一项关键技术.现有方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时难以取得理想的效果。该文介绍了一种可广泛应用在网上进行文本信息分类的SVMs方法,是由V...
- 尹中航王永成蔡巍
- 关键词:支持向量机
- 文献传递
- 自动分类中的过学习问题与支持向量机被引量:6
- 2000年
- 由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想。本文首先从理论上分析了这种出现过学习的原因,然后介绍了出现过学习现象的条件和解决办法,最后介绍了一种研究小样本情况下机器学习规律、可以较好地克服过学习问题的分类方法--支持向量机方法。
- 尹中航王永成蔡巍
- 关键词:支持向量机
- 自动分类中的过学习问题与支持向量机
- 由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想.本文首先从理论上分析了这种出现过...
- 尹中航王永成蔡巍
- 关键词:支持向量机
- 文献传递
- 三种分类算法的实验比较被引量:6
- 2004年
- 对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析.
- 蔡巍王永成李伟尹中航
- 关键词:K最近邻算法混合算法
- 基于主题提取与兼类噪声消除新方法的自动分类系统
- 2009年
- 本文作者在长期研究、开发文本自动分类系统的基础上,提出了一个新的使用混合分类算法的分类器框架。针对网上新闻特点,作为"词典+匹配"方法的补充,提出了利用串匹配无词典新闻主题提取方法;降噪一直是困扰自动分类精度提高的难点之一,在开发过程中发现了兼类噪声,提出了一种借助于统计特性修正概念类频来降噪的方法。综合上述方法开发了一个网上新闻自动分类系统,使用中国资讯行网上新闻语料10万篇进行测试,分类结果很好,接近实用水平。
- 蔡巍王英林尹中航
- 关键词:主题提取降噪
- 炎黄子孙携手共建中华网与信息库
- 该文从二十一世纪的发展真挚及对炎黄子孙的要求分析出发,指出了加强中华网与信息库的建设是一切炎黄子孙当前的紧急任务,是中华振兴的必需;与此同时,该文还提出了信息库建设优先、抓好信息标引、抓好人机界面建议与基本实现思路,介绍...
- 王永成尹中航
- 关键词:中华网信息库
- 文献传递