俞琰
- 作品数:32 被引量:202H指数:9
- 供职机构:南京工业大学更多>>
- 发文基金:国家社会科学基金教育部人文社会科学研究基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术文化科学电子电信哲学宗教更多>>
- 基于网络招聘文本挖掘的课程知识模型自动构建研究被引量:8
- 2019年
- [目的/意义]为帮助高校师生充分利用网络招聘信息,提出基于大数据量网络招聘文本挖振的课程知识模型及其自动构建方法。[方法/过程]本文提出包含“岗位-课程-知识点”的三级课程知识模型,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证和分析。[结果/结论]实验结果表明本文提出的模型及方法具有高度的可行性与有效性,可为高校和学生提供教学和学习参考。
- 俞琰俞琰赵乃瑄
- 关键词:文本挖掘
- 用户兴趣变化感知的重启动随机游走推荐算法研究被引量:10
- 2012年
- 针对目前重启动随机游走推荐算法忽略用户兴趣变化的问题,提出一种基于用户兴趣变化的重启动随机游走推荐算法。通过聚类识别用户的兴趣,建立用户兴趣模型,在此基础上,考虑兴趣的时间衰减,计算用户当前兴趣度。最后,根据用户当前兴趣度,形成用户转移概率矩阵,并做出推荐。实验表明提出的算法较传统的重启动随机游走推荐算法可以有效地提高推荐精度。
- 俞琰邱广华
- 关键词:个性化推荐
- 基于指数随机图模型的网络新闻媒体分析被引量:3
- 2012年
- 基于网络新闻媒体之间的转载关系构建了新闻转载网络,利用指数随机图模型,分析了新闻转载网络的结构。分析结果显示,新闻转载网络的网络关系稀疏,聚敛性和互惠性的局部结构明显,属性变量中传统媒体影响较大。指数随机图模型为研究网络新闻媒体提供了新的方法。
- 陈爱萍俞琰
- 关键词:网络新闻媒体社会网络分析
- 基于局部随机游走的在线社交网络朋友推荐算法被引量:16
- 2013年
- 在线社交网络已成为用户交互和分享信息的流行的互联网平台。其中,为用户推荐朋友是在线社交网络的一项重要服务。一方面,目前在线社交网络通常基于社会图的局部特性为用户推荐朋友(即,用户间的共同朋友数目)。这种方法仅使用路径长度为2的局部结构信息,没有充分利用社会图中各种不同长度的路径及其它信息。另一方面,基于社会图全局特性的在线社交网络朋友推荐方法虽然侦测了整个社会图的结构,但是对于大规模的在线社交网络来说,这类方法的计算成本相当高。为此,本文提出了一个新的在线社交网络朋友推荐方法。它根据"小世界"假说,随机游走有限范围内的所有路径,为用户提供了既快速又准确的朋友推荐。本文使用两个真实的在线社交网络的数据集对新方法进行评估。实验结果显示提出的方法显著增加了在线社交网络朋友推荐的准确性。
- 俞琰邱广华
- 关键词:随机游走
- 基于依存句法分析的中文专利候选术语选取研究被引量:11
- 2019年
- [目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。
- 俞琰俞琰姜金德赵乃瑄
- 关键词:术语抽取依存句法分析
- 基于辅助集的专利主题分析领域停用词选取被引量:6
- 2018年
- [目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。
- 俞琰俞琰
- 融入术语知识的专利主题发现方法被引量:3
- 2018年
- [目的 /意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法 /过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果 /结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。
- 俞琰俞琰
- 关键词:主题发现
- 基于大数据技术的网络日志分析系统研究被引量:39
- 2016年
- 传统的日志分析技术在处理海量数据时存在计算瓶颈。针对该问题,研究了基于大数据技术的日志分析方案,即由多台计算机完成日志文件的存储、分析和挖掘工作;建立了一个分层的网络日志分析系统:Syslog完成日志采集,Hadoop负责分布式存储和并行计算,在MapReduce框架下重新实现了IP统计算法。实验结果表明,在数据密集型计算中使用大数据技术可以明显提高算法的执行效率和系统的可扩展性。
- 任凯邓武俞琰
- 关键词:大数据日志采集MAPREDUCE日志分析
- 移动数据库在现代移动通信系统中的应用预测
- 2005年
- 阐述了移动数据库应用的一种设想,即将移动数据库驻留在手机、具有通信功能的PDA及其它微型设备上,通过移动通信系统中的高速无线网络与中央数据库服务器互操作。由于手机的普及和手机功能的不断强化,这项应用必定会得到人们的重视。本文介绍了微终端移动数据库的概念、特点、主要应用领域、实现的关键技术及发展前景。
- 俞琰
- 关键词:移动数据库手机INTERNET
- 融入术语与层级信息的专利关键短语抽取方法研究被引量:1
- 2023年
- 【目的】针对图模型方法在专利关键短语抽取过程中偏向于选取长关键短语并忽略短语所在位置的问题,提出融入术语度与层级信息的专利关键短语抽取方法,提高专利关键短语抽取的准确性。【方法】基于传统的图模型方法,提出一种新的术语度指标,以衡量候选关键短语的术语信息;根据专利文献特征,将专利划分为若干层级,提出层级权重指标,以度量候选关键短语位置信息。【结果】融入术语信息,专利关键短语抽取方法F值相对提高7.615%(纳米)、11.515%(图像识别)、9.813%(芯片)和8.839%(液晶显示)。融入层级信息,专利关键短语抽取方法F值相对提高9.880%(纳米)、6.929%(图像识别)、6.099%(芯片)和5.576%(液晶显示)。【局限】基于词性规则的候选关键短语选取方法会产生较多的噪声。【结论】利用术语度与层次信息的专利关键短语抽取方法能够有效提高专利关键短语抽取的准确性。
- 俞琰王丽郑斯煜
- 关键词:层级