王勇 作品数:6 被引量:12 H指数:2 供职机构: 重庆教育学院计算机与现代教育技术系 更多>> 发文基金: 重庆市自然科学基金 重庆市教育委员会科学技术研究项目 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于关联规则的web浏览路径相似程度计算 被引量:1 2005年 目前,电子商务网站要想盈利,就必须真正了解自己的客户以便为他们提供更好的服务。将具有相似兴趣爱好的客户聚集成类,对大量客户进行细分,形成不同的客户群体,再有针对性地对他们提供服务是现在常用的技术。对客户进行聚类分析是建立在对用户浏览路径进行相似程度计算的基础上的。传统的基于网页距离计算的浏览路径相似程度分析存在着较大的误差。本文提出的基于关联规则的Web浏览路径相似程度分析方法较好地解决了这个问题,通过实验也验证了算法的正确性。 王勇关键词:关联规则 Web结构挖掘中基于熵的链接分析法 被引量:2 2006年 在Web结构挖掘中,传统的HITS(hyperlink induced topics search)算法被广泛应用来寻找搜索引擎返回页面中的Autho-rity页面和Hub页面。但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等。由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值。为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构。该算法的核心思想是用信息熵来表示链接文本所隐含的知识。 王勇 杨华千 李建福关键词:主题提取 链接分析 WEB结构挖掘 基于大训练样本集的ε-SVR改进算法研究 被引量:1 2010年 在改进算法的研究中,从大训练样本集中进行样本抽样是构建大样本支持向量回归机的重要手段。根据ε-SVR支持向量分布的特有属性和支持向量逐步回归机算法求解ε-SVR的缺陷,为改善训练时间,优化收敛性,从大训练样本集中抽取的小样本集的ε-SVR超平面出发,通过计算大训练样本集样本点距近似超平面距离d,剔除大训练样本集中在ε≤d≤dmax外的训练样本点,逐步搜索SVs,建立大训练样本集ε-SVR。提出了构建大训练样本集ε-SVR的逐步搜索算法,理论分析和仿真实验验证了搜索算法的收敛性和有效性。 魏延 曾绍华 王勇 曹长修关键词:搜索算法 仿真 基于模糊聚类的Web浏览路径分析方法 被引量:6 2007年 在Web挖掘研究中,传统硬聚类技术常被用来分析网站浏览者对网页的浏览偏好。然而该方法只能将每一用户浏览路径归类到单一群组中,即事先假设每一浏览路径只包含单一种用户偏好,却忽略了同一用户浏览路径可能包含多个网页偏好。针对这种情况,提出用模糊聚类技术取代传统的硬聚类技术以弥补不足,使聚类结果更符合实际浏览情况。 王勇 张伟 陈军关键词:数据挖掘 WEB挖掘 模糊聚类 个性化 Web用户访问路径的差异性度量方法研究 被引量:2 2006年 Web站点个性化已经成为当前研究的一个热点,人们通过各种方法,对网站内容、结构、用户行为等进行数据挖掘,建立用户兴趣模型,为网站用户提供更好的服务,加强网站的竞争力。在当前网站个性化的方法中,基于用户行为分析的方法是最具有竞争力的一类方法。对Web用户行为进行分析用得较多的技术是对Web用户访问路径进行聚类以发现有意义的模式。而良好聚类的前提是有效地度量Web用户访问路径的差异性。针对这个问题,提出了一种新的Web用户访问路径差异性度量方法,通过模拟实验也验证了方法的正确性。 朱兴亮 游中胜 王勇关键词:WEB使用挖掘 聚类 个性化 一种基于分类的关联规则研究 2008年 传统的Apriori关联法则算法必须经过大量反复的数据库扫描才能产生候选项集,效率较低。提出一个改进的CBA(Classification Based Apriori)算法。此算法仅需扫描数据库一次,将数据库经过预处理后,再将事务数据库进行分类并保存分类结果,比较时可以不与所有事务记录进行比较,从而减少扫描数据库的次数与比较时间,且又能确保挖掘结果的完整性与正确性。 王勇 张伟关键词:数据挖掘