杨雨晴 作品数:8 被引量:19 H指数:2 供职机构: 太原科技大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 博士科研启动基金 山西省基础研究计划项目 更多>> 相关领域: 自动化与计算机技术 天文地球 更多>>
基于跨视图原型非对比学习的异构图嵌入模型 2024年 基于非对比学习(NCL)的异构图嵌入模型不依赖负样本学习数据的内在特征和模式,可能导致模型无法有效地学习节点之间的区分度。提出了一种基于跨视图原型非对比学习的异构图嵌入模型(XP-NCL),通过寻找额外的正样本提供更多关于源节点的上下文信息,并重新考虑了正样本之间的相似性,从而为下游任务学习更高效的节点表征。该模型首先设计了一种基于异构图随机游走的树型结构,通过筛选出满足局部结构约束的随机游走路径,从而构建正样本的有向筛选树(DFT),该树包含丰富的邻居信息和语义信息;其次针对异构图的特性,定义了跨视图原型指数(ISDR)和峰值算子(peak operator),从多个维度考虑了同类样本在数量和数值上的对齐;在此基础上,模型利用停止梯度更新进行训练。最后,在ACM、DBLP和freebase数据集上,实验验证了节点的分类和聚类性能,结果表明,即使不使用负样本,XP-NCL表征与其他同构图和异构图基线相比,很多情况下都可以呈现出更优越的性能。 张敏 杨雨晴 贺艳婷 史晨辉基于轨迹聚类的天光光谱特征分析 被引量:4 2019年 天光背景扣除是LAMOST 1D光谱数据处理中重要的环节,其扣除好坏直接影响光谱产品质量,因此构造理想的超级天光光谱模型具有重要的意义。通常超级天光是由与目标天体同时观测的天光光纤光谱构造而成,同一区域的天光背景可能随着不同的观测时刻有着规律性的变化特征(如月相变化),如果能充分分析并利用这些特征,可有效校正超级天光模型,从而提高减天光效果。轨迹聚类方法是一种分析目标随时、空变化特征的有效工具,针对LAMOST天光光谱中可能存在的变化规律,给出一种基于轨迹聚类的天光光谱特征分析方法。主要分以下三部分:首先是天光光谱的时序化描述。LAMOST pipeline采用且提供了每个观测天体的即时超级天光光谱,为了获取特定天区背景天光的光变特征,需选择天光光纤光谱以及扣除目标天体光谱的背景光谱,以5°视场(LAMOST望远镜视场)为单位,按观测日期MJD均匀分组,从而对特定区域的天光光谱进行了时序化表征;其次给出基于密度的天光光谱数据聚类算法STK-means。为解决随机参数导致收敛及聚类效果不理想的问题,在分析天光光谱时序数据特征的基础上,给出基于密度的相似性度量公式,并作为传统k-means聚类的初始参数选择依据,从而给出基于密度的天光光谱数据聚类算法STK-means;最后进行实验分析。实验验证了该方法的正确性和有效性以及不同初始参数K值的选择对聚类结果的影响。在此基础上,利用STK-means聚类方法,对LAMOST第一期巡天中一个完备小天区的天光光谱时序数据进行了轨迹特征分析,结果表明,除个别光谱质量较差或常说异常外,该特定区域的天光背景以农历每月十五、十六为中心向两边呈对称分布,反映了该区域观测过程中受月相的影响变化情况,该特征经量化后可为校正超级天光模型提供一种有效途径。同时,由于时序化� 蔡江辉 杨雨晴 杨海峰 罗阿理 孔啸 张继福关键词:轨迹聚类 基于动态滑动窗口的加权深度森林算法 2024年 深度森林是一种典型的机器学习方法,被广泛用于分类任务中。但其在时间序列分类中,往往容易忽视时间序列变化趋势对其特征提取的积极作用;且在级联森林中的特征向量更新时,将各子分类器同等对待,使不同子模型的分类能力无法得到充分利用,最终使得时间序列分类陷入局部最优。为了解决上述问题,该文提出了一种基于动态滑动窗口的加权深度森林方法,称为AWGE-gcForest,用于时间序列数据的分类。AWGE-gcForest算法首先根据时间序列的变化趋势,定义了窗口变化值WCV,实现窗口动态调整的同时减少多粒度扫描次数,以提高特征提取的效率、分类的准确率和泛化能力;其次,通过迭代最优对级联森林进行加权,为分类准确率高的森林赋予更大权重,从而降低分类性较弱的子树对整个模型的影响。上述操作从全局考虑级联森林的分类性能,避免陷入局部最优,以减少级联层数并降低时间复杂度。该算法在UCR数据集上与TS-CHIEF算法、MultiRocket算法、DF21算法和OS-CNN算法进行对比,其分类精度以及时间效率优于目前先进的时间序列分类方法,是一种相对高效的时间序列分类算法。 赵艺臻 周立婵 杨雨晴 赵建军恒星光谱数据弱特征识别方法 2024年 恒星光谱弱特征识别是LAMOST光谱数据分析的重要研究内容,能够为恒星光谱分类提供重要科学依据。目前,针对恒星光谱数据进行特征识别的方法较多,但是缺乏对某种特定特征谱线进行精确提取的算法。针对LAMOST低分辨光谱数据中Hα弱发射线轮廓形态多样问题,提出了一种基于置信度的Hα弱发射线识别方法。首先,基于Hα弱发射线轮廓形态特征给出Hα弱发射线的置信度的度量方法。利用Hα发射线波长区间内峰值与发射线的偏移量建立距离置信度模型,根据高斯轮廓所含像素点个数建立高斯轮廓副信息模型,通过计算峰值左右波形的差异建立对称性评估模型,结合三个模型给出最终的Hα弱发射线的置信度,并基于此置信度进行第一轮筛选。为了提高精度,提出了借助其它发射线的特征给出了基于二分类的Hα发射线筛选策略。通过考察Hβ、NII、OIII以及SII发射线的特征,基于辅助信息的决策树进行第二轮筛选,进一步提高筛选的精度。实验结果表明:提出的Hα弱发射线的特征度量方法的准确度高达90%,并且速度较快,平均每1 k数据耗时仅三十多秒。 贺艳婷 周嘉炜 杨雨晴 贾凯雪 唐文龙 杨海峰关键词:决策树 LAMOST离群光谱J140242.45+092049.8特征分析 2017年 LAMOST巡天已获取超过100 000条星系光谱,为探索珍贵、稀有的天体从而完善现有科学理论提供了重要的数据条件。研究采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入分析。首先利用特征光谱线进行红移测量并交叉SDSS同源光谱提供的红移信息,测量并证认了该光谱的两套红移系统:吸收线系统z_1=0.020 95、发射线系统z_2=0.069 5。从整体上,通过交叉现有文献及SDSS图像特征,分析了该"吸收+发射"模式的双红移系统属于透镜星系的可能性,而红移间隔Δz=0.048远大于Keel指出的双星系具有物理关系的临界0.008,意味着该目标前景与背景星系之间只是视向重叠,即视向星系对,没有相互的物理作用;对于前景星系(吸收线系统),通过测量光谱中呈现的特殊的特征线强度,分析了属于E+A星系的可能性;对于背景星系(发射线系统)光谱中呈现的双峰特征,分析了该光谱来自双峰发射线星系的可能性;此外,初步分析了该光谱中背景星系发射线强度关系异常的原因。 杨海峰 蔡江辉 张继福 罗阿理 赵旭俊 杨雨晴关键词:离群数据 大数据分析及处理综述 被引量:13 2020年 当今世界,数据正以前所未有的速度爆炸式增长,海量的数据成了各行各样重要的战略资源。自2008年大数据产生以来,与其相关的众多领域取得了一些令人瞩目的成就,同时也面临着诸多挑战。大数据分析及处理作为大数据领域最核心的问题,一直以来是国内外关注的焦点。为了让读者更加深入了解大数据分析及处理的基本理论并深入认识所面临的诸多挑战,在充分调研大数据分析及处理解相关技术的基础上给出了大数据分析及处理综述。文中首先简单介绍了大数据的内涵和特性,给出了大数据分析及处理的技术体系;然后从文本大数据分析与挖掘、网路大数据分析与挖掘、多媒体大数据分析与挖掘以及移动大数据分析与挖掘四个方面重点概述了国内外大数据分析及处理的研究现状;最后,总结分析了目前大数据分析及处理面临的主要问题和挑战。 蔡江辉 杨雨晴关键词:大数据 基于影响空间和数据场的LAMOST低质量光谱分析 被引量:1 2022年 针对LAMOST DR5 pipeline分类为Unknown的光谱数据对其进行了特征提取和聚类分析。主要工作如下:(1)基于影响空间及数据场的特征提取。首先基于影响空间从低信噪比光谱中提取出大量小集团;然后计算各小集团内部的场并根据场对光谱排序,依次访问光谱序列及其小集团内的成员来获得特征谱;(2)对上述特征谱进行K-means聚类,并统计了每一类目标所在天区、观测视宁度、各波段信噪比、亮度、光谱仪/光纤的分布情况。(3)低质量光谱聚类结果的理论分析。通过聚类所有低质量光谱被分为了5大簇:A光谱信噪比较低或与传统分类模板差异较大,但通过特征分析可确定其类别(占比2.7%);B光谱蓝端或红端出现疑似特征线或分子带,但与线表无法匹配(占比23.6%);C光谱蓝端信噪比极低,且该波长区域噪声值较强,其他波长区域的连续谱和线的特征较弱(占比48.0%);D红蓝两端拼接问题导致5 700~5 900?局部光谱突起明显,其他波长区域的连续谱和线的特征较弱(占比24.2%);E存在大量缺省值导致无法确定其类别(占比1.5%)。实验结果表明,该方法不仅能够有效提取低信噪比光谱的特征谱,同时能够通过特征谱的聚类分析揭示低质量光谱的成因,从而为制定光谱观测计划提供参考,为低信噪比光谱分析及处理提供方法借鉴。 杨雨晴 蔡江辉 杨海峰 杨海峰 赵旭俊关键词:数据场 聚类分析 基于轨迹间时空关联性的数据聚类算法 被引量:1 2021年 针对现有轨迹聚类算法中对轨迹之间的时空关联性考虑不足以及全局唯一距离阈值带来的算法的时空复杂度高以及聚类精度低的问题,提出了一种基于轨迹间时空关联性的数据聚类算法(The Data Clustering Algorithm Based on Spatio-temporal Correlation between Trajectories,DSCBT)。该方法主要包含两个阶段,在第一阶段中,首先根据最短停留时间限制和半径r确定初始中心代表点,然后将所在簇的最大距离作为该初始中心代表点对应的半径R,最后根据最短移动时间约束合并相邻的初始中心代表点并调整半径R,得到中心代表点集。第二阶段主要处理新增轨迹数据,首先将轨迹点与中心代表点集进行匹配,删除匹配成功的点产生新轨迹,然后对有聚类价值的新增轨迹执行第一阶段的操作,最后更新中心点集并完成聚类。实验结果表明,该算法能够有效降低算法的时间复杂度并提高聚类精度。 王瑟 杨雨晴 蔡江辉关键词:轨迹聚类