随着500 m口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,FAST)等大型射电望远镜的建设和使用,脉冲星巡天数据进入PB时代.为解决如此大量高速采样的标量数据挖掘问题,促进新天文现象的发现,提出一种基于无监督聚类的脉冲星候选体筛选方案.该方案采用基于密度层次、划分方法的混合聚类算法,结合MapReduce/Spark并行计算模型和基于滑动窗口的分组策略,进而提高大量候选体信号筛选的效率.通过在脉冲星数据集HTRU2(High Time Resolution Universe)上的对比实验,结果表明该算法能取得较高的精确度和召回率,分别是0.946和0.905,并且当并行节点足够时,该算法的时间复杂度相比串行执行明显下降.可见,该方法为脉冲星观测大数据的分析挖掘提供一种可行思路.
脉冲星搜寻是对脉冲星、引力波,以及对快速射电暴(Fast Radio Burst,简称FRB)等暂现源进行研究的基础。搜寻不仅可以扩大脉冲星样本,还可以发现极端性质的致密星。这有助于研究致密天体状态方程、星际介质、脉冲星导航、引力波探测等课题。目前,射电望远镜的单次巡天就可以产生百万数量级的脉冲星候选体。面对这些海量数据,仅仅依赖人工识别筛选,已不能满足数据的时效需求,更不能实现数据的实时处理。机器学习、计算机视觉应用等人工智能技术自诞生以来,其理论和技术已日益发展成熟,并已成功运用到脉冲星候选体筛选等射电天文研究领域。首先将介绍现有脉冲星搜寻的人工智能方法,再统计和分析已有脉冲星候选体筛选方法的性能,最后对FAST脉冲星候选体筛选工作进行展望。
脉冲星数据比对分析和可视化系统(PSRDB,URL:http://www.psrdb.net/),由FAST(Five-hundred-meter Aperture Spherical Radio Telescope)早期科学数据中心团队为快速开展脉冲星候选体比对分析和数据管理研发.通过前端数据提交页面,接收和维护来自FAST及其他研究机构的候选体数据.目前,PSRDB已收录自1967年人类发现第1颗脉冲星以来所有公开文献发表的2811颗脉冲星样本,并采集了当前主要巡天项目尚未正式发表的源和候选体,如FAST多科学目标同时扫描巡天(CRAFTS)候选体数据.基于入库基础数据,利用位置、周期、色散等参数进行比对分析,辅助科研工作者在线检索匹配已知星表数据,最后将检索匹配、比对分析结果生成图表供进一步分析.目前,PSRDB已被应用于FAST脉冲星搜寻和候选体数据管理.未来,PSRDB可在新源认证、后随观测、观测计划制定和原始数据处理流程设计等方面提供数据和工具支撑.