国家重点基础研究发展计划(G1998030414)
- 作品数:70 被引量:1,771H指数:22
- 相关作者:陆玉昌宋瀚涛石纯一鲁明羽周立柱更多>>
- 相关机构:清华大学北京理工大学首都师范大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术理学文化科学电子电信更多>>
- 基于二次熵的互信息特征选取方法的研究被引量:2
- 2004年
- 随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。
- 刘丽珍宋瀚涛陆玉昌
- 关键词:特征选取文本分类特征集互信息高维类方
- 基于Boosting机制的Naive Bayesian文本分类器被引量:3
- 2005年
- Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。
- 崔林付克明石生树宋瀚涛
- 关键词:BOOSTINGNAIVEBAYESIANCLASSIFIER文本分类
- 支持向量机在网页信息分类中的应用研究被引量:8
- 2007年
- 针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率.
- 刘丽珍贺海军陆玉昌宋瀚涛
- 关键词:支持向量机决策树网页分类
- 基于语义相似性的资源协同过滤技术研究被引量:19
- 2005年
- 为解决协同过滤推荐系统中所存在的可扩展性、稀疏性等问题带来的推荐性能下降,提出新的基于资源语义知识协同过滤算法,算法综合考虑了资源语义和用户评价的影响,改善基于资源协同过滤算法性能.实验表明,基于资源语义的协同过滤算法相对于传统协同过滤算法可提高推荐性能.
- 崔林宋瀚涛陆玉昌
- 关键词:个性化推荐系统协同过滤语义相似性
- 利用判定树归纳与面向属性归纳的组合方法对建筑业中施工企业的特征提取被引量:2
- 2003年
- 文章采用数据挖掘技术中的判定树归纳与面向属性归纳相组合的方法,对“昆明建筑工程交易中心信息管理计算机网络系统”中施工企业关系数据库中的细节数据进行概念分层和特征提取,构造出容易解释和效率较高的判定树和分类规则,可为建设单位和建筑管理机构的决策者提供更直观地、更深入地了解施工企业的决策信息,据此选择具备承担招标项目能力、资信良好的企业,另一方面又能增强业主的工程施工风险防范能力,提高对建筑业施工企业的管理水平。
- 庞淑英鲁明羽陆玉昌
- 关键词:数据挖掘技术判定树施工企业
- 网页数据自动抽取系统被引量:19
- 2004年
- 在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。
- 王茹宋瀚涛陆玉昌
- 关键词:信息提取DOM树
- Boosting理论基础被引量:15
- 2004年
- Boosting是提高学习算法准确度的有效方法。本文主要介绍了Boosting的问题框架PAC模型、与Boosting相似并有助于AdaBoost研完的在线分配模型和AdaBoost算法,并对AdaBoost算法的参数和弱假设选择等进行了分析。
- 涂承胜陆玉昌
- 关键词:ADABOOST算法学习算法PAC
- 计算文本相似度阈值的方法被引量:29
- 2003年
- 基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。
- 刁力力王丽坤陆玉昌石纯一
- 关键词:数据挖掘文本挖掘文本分类向量空间模型计算方法
- 专题型网页搜集系统的设计与实现被引量:2
- 2004年
- 近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。
- 胡卓颖徐可万中英陆玉昌丁树良
- 时态关联规则的研究被引量:15
- 2005年
- 由于时间是数据本身固有的因素,因此在挖掘关联规则时附加上某种时态约束会使规则能更好地描述客观现实情况,因而也会更有价值。该文从概化的角度给出一个挖掘时态关联规则的算法,并用商品的生命周期作为时间特征为例,介绍了具体挖掘过程。
- 董祥军宋瀚涛姜合陆玉昌
- 关键词:时态约束关联规则置信度