国家教育部博士点基金(20090002120005)
- 作品数:22 被引量:170H指数:8
- 相关作者:马少平刘奕群张敏茹立云岑荣伟更多>>
- 相关机构:清华大学清华信息科学与技术国家实验室香港城市大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于浏览器收藏夹的用户行为研究被引量:1
- 2011年
- 网络用户可以使用浏览器收藏夹收藏网页并快速访问其中内容。基于收藏夹的用户行为研究将对用户个性化、网页质量评估、大规模网页目录构建等方面的工作具有指导意义。该文使用近27万个用户的收藏夹数据,从组织结构、收藏内容和用户兴趣三个方面对用户收藏行为进行了研究。首先,我们提出收藏夹浏览点击模型,分析了收藏夹结构特征和使用效率;其次,通过与PageRank值比较,我们发现用户倾向于收藏质量高的网络资源;最后,我们结合ODP分析了收藏夹用户的兴趣分布特点。
- 方奇刘奕群张敏茹立云马少平
- 关键词:用户行为分析
- 面向浏览推荐的网页关键词提取被引量:4
- 2012年
- 在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能.
- 闫兴龙刘奕群马少平张敏茹立云
- 关键词:关键词提取网页关键词
- 基于用户行为的长查询用户满意度分析被引量:5
- 2012年
- 搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.
- 朱彤刘奕群茹立云马少平
- 关键词:用户行为分析用户满意度学习算法
- 基于用户行为的竞价广告效果分析被引量:11
- 2011年
- 随着互联网数据的爆炸性增长,搜索引擎成为人们生活和工作中不可缺少的信息获取工具.作为搜索引擎盈利的主要商业模式之一,竞价排名的赞助商广告链接以其高效、低风险、灵活方便的特点受到传统营销方式下处于劣势的中小企业的青睐.然而搜索引擎结果页面上出现大量的广告链接是否影响用户体验?这些广告链接的实际收效如何?加入赞助商广告链接的搜索引擎如何影响用户的点击行为?开展面向这些问题的研究将对研究用户使用搜索引擎的行为特点、改进搜索引擎改进竞价排名的开展方式和指导中小企业如何更加有效地购买广告链接具有非常重要的指导意义.在总结国内外已经开展的相关研究的基础上,利用某商业搜索引擎提供的互联网用户点击日志和搜索引擎使用日志,采用数据挖掘和信息统计的方法,试图在全互联网的规模和商业搜索引擎的级别上提取用户和广告链接点击相关的信息,加以分析讨论,并对广告链接和非广告链接的相关性作深入分析.
- 王家卓刘奕群马少平张敏
- 关键词:竞价排名搜索引擎互联网广告
- 基于群体智慧的Web访问日志会话主题识别研究被引量:5
- 2011年
- Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。
- 方奇刘奕群张敏茹立云马少平
- 关键词:WEB访问日志
- 一种基于文档相似度的检索结果重排序方法被引量:9
- 2010年
- 对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。
- 周博岑荣伟刘奕群张敏金奕江马少平
- 关键词:计算机应用中文信息处理信息检索
- 面向用户互联网访问日志的异常点击分析被引量:5
- 2010年
- 随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多IP的点击,我们建议不做处理。
- 王倩刘奕群马少平茹立云
- 关键词:计算机应用中文信息处理用户行为分析
- 基于日志挖掘的搜索引擎用户行为分析被引量:34
- 2010年
- 随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。
- 岑荣伟刘奕群张敏茹立云马少平
- 关键词:计算机应用中文信息处理用户行为分析搜索引擎网络信息检索
- 网页质量评价体系的研究被引量:4
- 2011年
- 网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regres-sion模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。
- 魏超陈飞许丹青张敏刘奕群马少平
- 关键词:信息检索ORDINALLOGISTIC
- 基于日志分析的中文输入法用户行为研究被引量:2
- 2011年
- 与拼音文字不同,用户在进行中文输入时需要借助输入法软件完成从拼音串到汉字串的转换过程,输入法因此成为中文用户进行人机交互的基础性工具,而输入法的相关技术研发也一直是学术界与产业界的关注热点。在中文输入法技术的研究中,用户的行为特点对输入法软件的词库建立、算法设计、交互方式设计与性能评价等多方面都有着至关重要的作用,但由于数据获取与分析的困难,这方面的相关研究尚不多见。该文利用某中文输入法在用户许可下收集的超过4.1亿条用户输入行为记录,进行了中文输入法用户行为的分析研究,针对不同类别应用程序的输入词频差异,不同用户在同类应用程序中的不同候选词条的选择等行为特点进行了挖掘分析,研究结果会对深入了解中文输入法用户行为,进而改进输入法软件性能具有一定的指导意义。
- 许丹青刘奕群岑荣伟马少平茹立云杨磊
- 关键词:中文输入法用户行为日志分析