刘露 作品数:9 被引量:77 H指数:6 供职机构: 吉林大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 吉林省重大科技攻关项目 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于关系触发词与单层GRU模型的关系抽取方法 被引量:6 2020年 基于关系触发词与单层门控循环单元模型进行关系抽取,以降低关系抽取模型结构的复杂度,并提高模型的训练效率.通过计算单词的依存距离与序列距离得到关系触发词,利用单层门控循环单元模型进行关系抽取,并在SemEval2010Task8数据集上进行实验.实验结果表明,该方法能有效提取出关系触发词,并具有较高的关系抽取准确率. 王磊 刘露 牛亮 牛亮 胡封晔关键词:关系抽取 基于人工免疫算法的增量式用户兴趣挖掘 被引量:7 2015年 了解用户兴趣是为用户提供个性化服务的关键。用户兴趣有短期兴趣和长期兴趣之分,且具有不稳定性。受人工免疫系统的启发,巧妙地将免疫应答过程应用于用户兴趣挖掘。首先将概率与时间相结合,提出"概念时序动态"的概念,以更好地刻画用户在一段时间内对同一兴趣的关注程度;然后基于人工免疫原理,建立抽取兴趣标签的分类器来提取用户兴趣标签;最后针对增量式学习,建立兴趣标签的"概念时序动态",刻画出用户兴趣自首次出现以来受关注的程度,以此为依据来判断兴趣是否存在迁移及遗忘现象,并为每个兴趣标签附上权重。其主要贡献是创造性地将人工免疫原理应用于用户短期兴趣和长期兴趣的挖掘,并具有增量特性,可以很好地体现用户兴趣迁移特征,是一种自然完整的用户兴趣模型。实验结果表明,该学习模型能够很好地发现用户关注的领域,其平均精度和召回率分别达到79.5%和74.4%,是目前最贴近用户的兴趣挖掘模型。 左万利 韩佳育 刘露 王英 彭涛关键词:人工免疫系统 一种基于密度的分布式聚类方法 被引量:13 2017年 聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分布式聚类方法 MRCSDP,利用MapReduce框架对实验数据进行聚类.该方法定义了独立计算单元和独立计算块的概念.首先,将数据拆分为若干数据块,构建独立计算单元和独立计算块,在集群中分配独立计算块的任务;然后进行分布式计算,得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值得到每个数据块中候选聚簇中心;最后,从候选聚簇中心选举出最终的聚簇中心.MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果.实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速、有效地处理大规模数据,并使各节点负载均衡. 王岩 彭涛 韩佳育 刘露关键词:聚类 分布式计算 MAPREDUCE 异质网中基于张量表示的动态离群点检测方法 被引量:7 2016年 挖掘隐藏在异质信息网络中丰富的语义信息是数据挖掘的重要任务之一.离群点在值、数据分布、和产生机制上都明显不同于正常数据对象.检测离群点并分析其不同的产生机制,最终消除离群点具有重要的现实意义.目前,针对异质信息网络动态离群点检测的研究工作相对较少,还有很多问题有待解决.由于异质信息网络的动态性,随着时间的变化,正常数据对象也可能转变为离群点.针对异质网络提出一种基于张量表示的动态离群点检测方法(TRBOutlier),并根据张量表示的高阶数据构建张量索引树.通过搜索张量索引树,将特征加入到直接项集和间接项集中.同时,根据基于短文本相关性的聚类方法来判断数据集中的数据对象是否偏离其原聚簇来动态检测网络中的离群点.该模型能够在充分降低时间和空间复杂度的条件下保留异质网络中的语义信息.实验结果表明:该方法能够快速有效地进行异质网络环境下的动态离群点检测. 刘露 左万利 彭涛关键词:聚类 异质网络中基于节点影响力的相似度度量方法 被引量:5 2019年 异质网络相似度学习,即分析两个不同类型对象间的相关程度.不同类型对象在异质网络中的重要程度不同,它们在相似度学习过程中的发挥的作用也不同.针对异质网络,提出了一种基于节点影响力的相似度度量方法NISim,该模型既考虑了网络中的链接结构,也保留了网络中的语义信息,同时区分不同类型节点对异质网络的作用.在异质信息网络环境下,通过启发式规则区分并量化不同类型节点的影响力权值,并结合网络链接结构和节点间语义关系,解决了提高相似度学习准确性的问题.实验结果表明,该方法能够有效地对异质信息网络不同类型节点进行相似度度量,可以应用在网络搜索、推荐系统以及知识图谱构建等不同领域. 刘露 刘露 胡封晔 牛亮关键词:异质网络 推荐系统 知识图谱 网络搜索 链接结构 语义关系 双类型异质网中基于排序和聚类的离群点检测方法 被引量:6 2018年 挖掘隐藏在网络中不同于正常数据对象的离群点是数据挖掘的重要任务之一.目前,针对双类型异质信息网络离群点检测的研究工作相对较少,原本适用于同质网络的离群点检测方法将很难适用于双类型异质网络.为此,提出了异质信息网络中基于排序和聚类的离群点检测方法(RKBOutlier).从异质信息网络中抽取两种类型的对象以及链接两种对象的语义信息,将待检测的数据作为属性对象,将另一类型数据作为目标对象,对目标对象进行聚类来检测属性对象在各个聚类中的分布情况,数据分布异常的对象即为离群点.将排序和聚类相结合来显著提高聚类的准确度.实验结果表明,RKBOutlier可以在双类型异质信息网络中有效地检测出离群点. 彭涛 杨妮亚 徐原博 王冰冰 刘露关键词:离群点检测 排序 聚类 一种基于规则的无监督词性标注方法 被引量:5 2015年 提出一种基于规则的无监督词性标注方法,利用200多条英语语法规则,创建26个规则函数,先将输入的待标注英语句子进行预处理后得到初始标记,再对每个单词调用规则函数,最终得到标注后的英语句子.通过对Brown语料库的实验,词性标注的正确率达到93.95%.实验结果表明,本文方法可行、有效,能很好地提高英语词性标注的准确率. 彭涛 戴耀康 朱枫彤 张邦佐 刘露 闫昭 钱锋关键词:词性标注 无监督学习 基于聚类和决策树的链路预测方法 被引量:5 2017年 链路预测是数据挖掘研究的主要问题之一.由于网络的复杂性、数据的多样性,根据网络结构及已有信息对异质网络中的不同类型的数据进行链路预测的问题也变得更加复杂.针对双类型异质信息网络,提出了一种基于聚类和决策树的链路预测方法 CDTLinks.通过将网络中2种类型对象互为特征的方法得到对象的特征表示,并分别进行聚类.对于双类型异质网络提出了3种启发式规则来构建决策树,根据信息增益来选择树中不同分支.最后,根据聚簇分布结果以及决策树模型来判断任意2个不同类型节点之间是否存在链接.另外,定义了潜在链接节点并引入层数的概念,在降低算法运行时间的同时提高了准确率.在DBLP和AMiner数据集上验证了提出的CDTlinks方法,结果表明:在双类型异质网络中,CDTlinks模型能够有效地进行链路预测. 杨妮亚 彭涛 刘露关键词:链路预测 聚类 决策树 启发式规则 一种基于聚类的PU主动文本分类方法 被引量:23 2013年 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 刘露 彭涛 左万利 戴耀康关键词:聚类 FREQUENCY