河北省教育厅科研基金(2001206)
- 作品数:9 被引量:299H指数:8
- 相关作者:袁方湛燕王熙照陈昊王丽娟更多>>
- 相关机构:河北大学哈尔滨工业大学东北大学更多>>
- 发文基金:河北省教育厅科研基金河北省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于数据仓库的数据挖掘技术在高校学生成绩分析中的应用被引量:20
- 2004年
- 随着高校招生规模的扩展 ,在校生人数越来越多 ,学生成绩分布越来越复杂 ,除了传统的学生成绩分析得到的一些结论外 ,还有一些不易察觉的信息隐含其中 ,故而把基于数据仓库的数据挖掘技术引入到学生成绩分析中 ,以找到影响学生成绩的真实原因 。
- 丁知斌袁方
- 关键词:数据仓库数据挖掘学生成绩分析
- Lazy和Eager分类算法的比较研究被引量:1
- 2004年
- 数据挖掘的两个高层目标是预测和描述,这个过程中分类算法的应用是非常广泛的。分类算法在机器学习领域中可以分为Lazy和Eager两种类型,分别具有不同的算法特点。文章基于实验对这两种类型的分类算法进行了分析,概括出适宜两种类型的环境条件,旨在提出实际应用中进行算法选择的经验性结论。
- 陈昊王熙照袁方湛燕
- 关键词:数据挖掘K-近邻决策树
- 数据挖掘在高校学生学习成绩分析中的应用被引量:56
- 2006年
- 随着高校的扩招,学生的数量越来越大,传统的对学生成绩的统计分析方法已不适应深入分析的需要。针对学生情况数据库应用数据挖掘中的ID3算法进行了情况分类,并对得到的结果进行了分析,得出了影响学生成绩的内部原因以及其它一些结论。
- 丁智斌袁方董贺伟
- 关键词:数据挖掘学习成绩分析决策树ID3算法
- 基于XML的信息检索技术被引量:10
- 2005年
- 传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的。文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势。目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microsoft公司的.NETFramework为例,介绍了如何从XML文档中检索信息。试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难。
- 李驰袁方郝亚南
- 关键词:超文本标记语言可扩展标记语言信息检索
- 对k-means聚类算法的改进被引量:67
- 2004年
- 提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。
- 袁方孟增辉于戈
- 关键词:K-MEANS聚类算法聚类模式识别
- 基于中文文本分类的分词方法研究被引量:37
- 2003年
- 文本分类有助于用户有选择地阅读和处理海量文本,因此其预备工作分词系统的研究是很有意义的。该文主要提出了一种基于中文文本分类的分词方法,区别于常用的基于字符串匹配等方法,并利用数据库特有的查询技术设计和实现了该分词系统,旨在通过新的分词方法提供更加准确的分词率,同时提高系统实现效率。
- 湛燕陈昊袁方王熙照
- 关键词:文本分类分词查询数据库
- 传递闭包聚类中的模糊性分析被引量:13
- 2003年
- 传递闭包聚类是根据其相似矩阵的传递闭包生成一个聚类图(模式空间的若干个精确划分),聚类过程的模糊性主要体现在相似矩阵上,并可以通过模糊信息熵函数度量。聚类过程中模糊性的大小是衡量聚类效果好坏的一个重要指标。降低聚类的模糊性,有利于最终的决策(指定一个精确的划分)。论文引入了交叉熵的概念,通过学习权重,极小化交叉熵,可以有效地降低聚类的模糊性。
- 王熙照王丽娟王利伟
- 关键词:聚类
- 文本挖掘研究进展被引量:26
- 2003年
- 数据挖掘是将人工智能技术和数据库技术紧密结合 ,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式 ,以满足人们不同应用的需要 .由于存储信息最多的自然形式就是文本 ,因此文本挖掘具有重要的意义 .结合笔者研究工作 ,主要介绍了文本挖掘的研究内容 ,挖掘过程 ,挖掘算法及应用前景 .
- 湛燕陈昊袁方王丽娟
- 关键词:文本挖掘特征选取文本分类文本聚类
- 学习特征权值对K-均值聚类算法的优化被引量:73
- 2003年
- K 均值 (K means)算法聚类的结果依赖于距离度量的选取 传统的K 均值算法选择的相似性度量通常是欧几里德距离的倒数 ,这种距离通常涉及所有的特征 在距离公式中引入一些特征权参数后 ,其聚类结果将依赖于这些权值 ,从而可以通过调整这些权值优化聚类效果 由于K 均值算法是迭代算法 ,很难直接确定其权值以优化聚类结果 ,因此提出了一种间接的学习权值算法以改进聚类结果 从数学意义上讲 ,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换
- 王熙照王亚东湛燕袁方
- 关键词:K-均值聚类相似度量特征权值