熊贇
- 作品数:19 被引量:97H指数:5
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:国家自然科学基金上海市科学技术发展基金上海市科学技术委员会资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于载客数据的出租车热门区域功能发现被引量:2
- 2017年
- 根据出租车行驶载客数据中提取的乘客出行模式和上下客热门区域,提出一种出租车热门区域功能发现方法。采用基于交通数据时空特性的出租车行驶数据聚类算法,实现热门区域划分。建立基于潜在Dirichlet分配的热门区域乘客出行特征发现模型,对具有相似乘客出行模式的出租车热门区域进行聚类。通过总结各热门区域的具体功能,发现在不同客流时间段内的区域功能与乘客出行模式间的关系。实验结果表明,该方法能够有效发现热门区域的功能特点。
- 孙冠东张兵刘禹岍熊贇
- 关键词:主题模型
- 大数据人才培养的基础条件初探被引量:29
- 2016年
- 人才短缺是发展大数据的主要障碍,越来越多的大学启动了大数据人才培养计划。大数据人才培养的基础条件有哪些?首先要有师资,但这是一个矛盾的基础条件,人才短缺意味着师资更短缺;其次要有数据,且是"大"的数据,没有数据的人才培养是纸上谈兵;有了"大"数据,就需要相应的计算条件。探索了大数据人才培养所需的师资、数据和计算条件问题,提出超学科创新培养模式解决师资条件问题、建立大数据试验场解决数据和计算条件问题。
- 朱扬勇熊贇
- 关键词:大数据
- 数据的经济活动及其所需要的权利被引量:13
- 2020年
- 随着以数据为关键要素的数字经济的快速发展,涉及数据的纠纷和案件越来越多。由于数据要素是一个新生事物,因此有必要理清数据的经济活动类型及其需要的权利。结合数据的特点,将数据的经济活动分为数据生产再生产、数据确权、数据使用和数据服务、数据交易、科学研究五大类,相应地提出了数据生产权、数据所有权、数据使用权和数据交易权4类所需要的权利,以期为数据运用立法和数字经济的发展提供参考。
- 朱扬勇熊贇
- 关键词:数字经济
- 面向数据自治开放的数据盒模型被引量:4
- 2018年
- 在数据自治开放模式中,数据使用者可以将数据上传到应用软件或下载数据到其设备中。其中面临的问题首先是让数据使用者看得见有哪些数据,其次是如何合理组织数据方便应用软件使用、计量和管控。提出了一个数据盒模型作为数据自治开放环境下的基本数据模型,介绍了数据盒的基本要素组成及运作系统架构,说明了该数据模型的具体实施方式。
- 熊贇朱扬勇
- 关键词:数据共享数据模型
- 基于ICD-10诊断编码的慢性病并发症聚类算法被引量:2
- 2018年
- 慢性病与其相关并发症关系的研究,对患者以及医学研究都有重要意义。电子病历中记录的患者就诊数据为研究目标慢性病与其并发症的关系提供了数据基础,其中面临的挑战之一在于既需要使用临床医生的领域知识对并发症进行标注,又不希望给医生增加过多负担。设计了一种采用分组策略的基于ICD-10诊断编码的慢性病并发症半监督聚类方法,以实现在较少的医生专家参与下对慢性病并发症归类。真实糖尿病患者电子医疗记录数据集上的实验结果表明提出的算法是实用且有效的。
- 王晓霞蒋伏松王宇熊贇
- 关键词:半监督学习聚类算法
- 基于环境气象因素影响的异常就诊量预测
- 2018年
- 通过分析某儿童医院传染科就医人数异常(突增、突减)情况,建立就医人数与气象特征间的分类模型,实现对传染科就医突变情况的高准确率预测,以便院方合理调配科室、安排医生出诊人数。建立的模型对就医人数突增情况的预测准确率达到92.8%,召回率达到83.5%;对就医人数突减情况的预测准确率达到87.4%,召回率达到92.4%,并与多种分类器进行比较,实验表明该方法在预警传染科就诊人数的突变方面综合表现更佳。
- 于广军熊贇熊贇阮璐
- 一种半监督学习的金融新闻文本分类算法
- 2022年
- 对金融文本进行分类是一项常见的用于识别金融风险的任务。传统的金融新闻文本分类方法需要大量的已知类别文本来训练分类器,然而标注金融新闻文本标签不仅需要专业的金融背景知识,而且耗时耗力。为了减少对已知类别文本的依赖,提出了一个基于半监督学习的金融文本分类算法,该算法采用有监督学习和无监督学习的一致性训练方式,以更好地利用未知类别的文本数据;针对金融领域文本引入无监督数据增强方法,即对特定任务使用特定目标的数据增强方法,以产生更有效的数据。在多个金融文本数据集上开展的实验证明,相比其他文本分类算法,提出的算法在有效性上有明显提升。
- 张晓龙支龙高剑苗仲辰林越峰项雅丽熊贇
- 关键词:自然语言处理文本分类半监督学习金融
- 不确定数据集上的k-Skyline查询
- 由于数据本身固有的不确定性、采集的随机性及不精确性导致现实应用中产生了大量的不确定数据集.基于概率Skyline的思想,提出了不确定数据集上的k-Skyline查询,用于查询Skyline概率最大的k个对象,并设计了一个...
- 李金玖熊贇朱扬勇
- 关键词:TOP-K查询信息共享
- 文献传递
- 大数据的若干基础研究方向被引量:2
- 2017年
- 大数据问题的关键技术挑战在于:找到隐含在低价值密度数据中的价值;在希望的时间内完成。指出前者需要将领域知识和数据技术结合,这种结合的理论和新型算法构成大数据的分析基础和应用基础;后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法,这些构成大数据的计算基础和数据基础。另外,这两个挑战都涉及数学理论,这是大数据的数学基础。系统地分析了大数据的数学基础、计算基础、数据基础、分析基础和应用基础等基础研究方向。
- 朱扬勇熊贇
- 关键词:大数据数据资源
- 不确定数据集上的k-Skyline查询
- 由于数据本身固有的不确定性、采集的随机性及不精确性导致现实应用中产生了大量的不确定数据集.基于概率Skyline的思想,提出了不确定数据集上的k-Skyline查询,用于查询Skyline概率最大的k个对象,并设计了一个...
- 李金玖熊贇朱扬勇
- 关键词:TOP-K查询
- 文献传递