# cluster_search **Repository Path**: colab_worker/cluster_search ## Basic Information - **Project Name**: cluster_search - **Description**: we try to use the tensorflow and AI to find the cluster from the gaia data. - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-03-30 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ** # 天球坐标系下的团结构搜寻与定位方法 ** ###**一、课题的意义** 疏散星团一直是恒星演化和银河系结构等领域的重要研究对象。在一片天区中把疏散星团的成员星从场星中分辨出来的过程称为成员星辨认。成员星辨认的准确度会直接影响疏散星团基本物理参数的估计和测量, 因此, 建立效率高、准确度高的成员星辨认模型对于确定疏散星团的属性参数以及后续的科学研究具有重要意义。一般是利用成员星和场星在物理性质上的差异来进行成员星辨认。星团的所有成员星作为一个整体在一些恒星参数上有别于场星, 如相对自行、视向速度、红移、金属丰度等, 通过这些特性可以找到抱团存在的一些恒星, 也就是星团。要建立一个成员星辨认模型, 首先要明确以哪些物理性质作为判据, 要考虑数据的精确度、场星以及成员星在此物理性质上的差异性和差异程度等, 可以通过一种特性, 也可以合采用几种物理特征建立多维的模型, 例如综合考虑视向速度、光谱和自行数据等来找到星团; 其次是要建立合理的数学模型来刻画场星和成员星在这些性质上的差异, 设定判据找出星团成员星。同理, 要衡量一个成员星辨认模型辨认结果的可靠程度, 主要看此数学模型是否明确地刻画了星团成员星和场星的差异, 以及差异的明显程度。恒星可被直接测量到的物理性质一般分为两大类: 亮度和运动。因此, 目前成员星辨认的方法也主要分为测光方法和运动学方法。 测光方法是利用恒星不同波段的测光数据画出区域内所有恒星的颜色-星等图, 然后找到在主序上的恒星,但对于很多星团, 直接利用多色测光资料和颜色星等图找到清晰的主序星是十分困难的, 因此也难以给出定量的判定结果。另外, 主序的形状和宽度也会受到很多因素的影响, 包括恒星自转、星团年龄、双星系统等,颜色星等图主要反映星团演化以及星团成员的年龄信息。很多利用测光方法进行成员星判定的研究, 会综合使用运动学数据对恒星进行筛选。WANG等人先利用PPMXL 星表的自行数据对所有恒星进行初步筛选, 然后使用2MASS中J和K波段的测光数据, 最后对M44星团进行成员星辨认, 结果如图1 所示。从颜色-星等图中可以发现, M44 的成员星( 橙色的点) 形成一条主序, 可以用等龄线拟合, 从而得到恒星的一些物理参数。 ![输入图片说明](https://images.gitee.com/uploads/images/2019/0403/185431_637fcd69_4913476.jpeg "1.jpg") 注:橙色点表示成员星概率较高的点,即视为 M44 的成员星,蓝色点代表成员概率较低的点。蓝色、红色、灰色 以及黑色实线分别代表 BT-Settle, Siess, Padova , Kraus 和 Hillenbrand 这几种等龄线库。M 表 示太阳的质量。 图 1 M44 星团在 J 和 J−Ks 波段的颜色-星等图 运动学方法是利用恒星的运动速度( 自行和视向速度), 假定星团的所有成员星集体的运动规律会有别于场星, 建立严格的数学模型, 计算区域内每颗恒星是成员星的概率。 两种方法各有优劣之处: 测光方法的优势在于数据丰富, 可以综合利用多波段的颜色-星等数据来找到成员星的分布区域, 缺点是难以给出很多星团量化的判定结果; 运动学方法可以弥补这一缺点, 但是当缺乏恒星视向速度数据或者自行数据精度差的时候, 会大大降低运动学方法判断的可靠性。对于近距离的星团来说, 自行和视向速度方面的数据比较丰富、精度也较高, 采用运动学方法进行成员星辨认的可靠性要高于测光方法。因此对于近距离的星团, 从运动学角度建立效率高、准确度高的成员星辨认模型对于了解星团的基本属性以及进一步的研究具有重要作用。对于远距离的星团, 在无高精度运动学数据的情况下, 只能采用测光的方法。在实际研宄中, 除了模型准确度之外, 还要考虑到数据的测量难易度、完整度和准确程度, 目前运动学方面较为常用的星表包括依巴谷星表、第谷星表2 、UCAC 系列和PPMXL,以及未来的gaia星表。为了更充分地利用数据, 大多数研宄会综合使用测光数据和运动学数据, 用来做成员星辨认的补充判据, 或者结果的交叉验证。如Wu 等人通过建立模型拟合恒星的SED(spectralenergy distribution) 数据来进行成员星辨认, 确定星团的基本物理参数, 然后与用运动学方法得到的成员星判定结果进行比对, 从而综合评判模型结果的可靠性。同理, 当数据精度越来越高的时候, 反过来会要求模型参数解算精度不断提高。因此,新一代天体测量卫星gaia带来更多更高精度的测量数据的同时, 也会对新一代成员星辨认模型的准确度和可靠性提出更高的要求。 ### **二、研究现状** - 1、经典的 Vasilevskis-Sanders 方法 #####-- 1.1 模型的提出与发展 在位置空间中,星团的成员星会成团存在,不易与周围场星区别开来。图 2 为 M44 星团所在天区的恒星位置分布图,可以看到通过位置空间的聚团效应寻找星团的方法并不可靠。而在速度空间,由于星团的成员星相对于场星会有一个整体的速度,一般会形成两个明显集合,分别是星团成员星和场星集合。M44 星团所在天区的恒星自行矢点图如图 3 所示,数据来源于 UCAC5。图中可以看到所有的点聚集成了两个集合。UCAC5 星表的自行精度在 0.001 2 (′′) · a−1 左右,两个集合的平均自行之间的差异远大于测量误差,因此从运动学上将星团成员星分离出来是可行的。 Vasilevskis-Sanders 方法利用运动学特性对疏散星团进行成员星辨认,是目前使用最为广泛的方法。Vasilevskis 等人提出了描述星团运动学数据的分布函数,认为星团成员自行 ![输入图片说明](https://images.gitee.com/uploads/images/2019/0403/185520_1fd3b798_4913476.jpeg "2.jpg") 注:利用 UCAC5 的数据绘制,RA和DEC 分别表示赤经和赤纬,数据点为距离 M44 中心 1◦ 天区内的恒星。 图 2 M44 所在天区的恒星位置分布 ![输入图片说明](https://images.gitee.com/uploads/images/2019/0403/185553_19fa8fee_4913476.jpeg "3.jpg") 注:用ucacs的数据绘制,µx 和µy 表示恒星在赤经和赤纬方向的自行分量,数据点为距离M44中心1°天区内的恒星。 图 3 M44 星团所在天区的恒星自行矢点图 分布可以用标准二维圆形正态分布函数来描述,分布函数中的弥散度为星团成员自行的内禀弥散度。而场星的自行内禀弥散度还受到太阳视差动和银河系转动等方面的影响,因此自行分布无法用二维圆形正态分布来描述。但是,在初始阶段可以用二维椭圆正态分布函数来拟合,其中,二维椭圆正态分布函数的主轴平行于银河系平面。Sanders[11]在继承 Vasilevskis 等人的假设基础上,提出了“成员概率”的概念,用以表征这颗恒星属于星团成员的可能性大小;并发展出含 8 个参数的数学模型,计算出每颗恒星的“成员概率”,再利用最大似然法对模型进行参数估计。 Vasilevskis-Sanders 方法提出后,又经过了多人的完善和发展。Slovak]利用模拟的自行数据对 Vasilevskis-Sanders 模型进行测试,证明了模型结果的唯一性和收敛性,并指出此模型只能应用于没有明显内部运动的星团,因此最适合用来研究疏散星团。另外,在某些情况下,该模型也适用于球状星团,取决于球状星团周围场星和团星的速度差异与星团本身速度弥散度的比值。之后 Zhao 和 He在 Vasilevskis-Sanders 模型基础上,引进了每颗恒星自行数据的测量误差。除此之外,星等对估计模型参数的影响也考虑进来。Shao 和 Zhao将此方法进一步改进,建立了一套严格的包含多种判据的数学模型,应用于具有多重结构的复杂星团的成员星辨认工作中。Tian 等人应用这种改进的模型,成功计算出同一片天区中两个星团的参数和成员概率。在疏散星团的成员星辨认研究领域,Vasilevskis-Sanders 方法是一种比较经典,而且发展较为完善的研究方法。 #####-- 1.2 模型评价 Vasilevskis-Sanders 方法包含了一些前提假设: 天区中的星仅被分成无交集的两大类——星团成员星和场星; 星团和场星在自行空间都满足二元正态分布; 星团成员星在自行空间的分布可以用二维圆形正态分布函数来拟合,其中弥散度为星团自行的内禀弥散度。 上述条件只是理想化的情况,实际上会受到很多因素的影响,如在真实的情况下,场星的自行分布有时候会有明显的重尾现象,不是标准的二维椭圆正态分布;实际的观测数据可能有较大的误差;一些星团的成员星分布并不会完全满足二维圆形正态分布等。除了这些影响因素之外,Galad´ı-Enr´ıquez 等人还详细讨论了模型假设可能造成的其他问题,应用二维圆形正态分布函数来描述星团的赤经自行和赤纬自行时,不能将星团的运动沿赤经和赤纬分解开来,只能用来描述二维平面中星团的整体运动规律。另外,在赤经和赤纬两个方向上的观测数据也可能存在系统性的干扰和误差。而且,用二维椭圆正态分布函数不能完全描述场星的自行分布,因为场星的自行分布会受到太阳视差动和银河系运动等影响,比较复杂。当场星的数量与成员星数量相当或者场星数量占优时,用一个不精确的分布函数来描述场星分布导致的误差可能会淹没掉星团的信号,极大地影响成员星辨认的准确度。这种情况下要用 Vasilevskis-Sanders 模型,就需要一个更加精确刻画场星分布的函数,例如叠加三个高斯分布来拟合场星分布情况。当星团与场星的两个分布函数的中心位置相聚过近从而无法有效地进行区分时,对于自行较小的星团成员的判定也会带来较大的误差,比如远距离的星团。应用 Vasilevskis-Sanders 方法时,场星和星团成员的数量比也需要在一个合理的范围内,成员过多或者过少,对判定结果都不利。另外,当星团距离太阳系过近时,此方法也不适用。 但 Vasilevskis-Sanders 模型仍然是目前为止最为成熟且应用最为广泛的经典模型,不少星团成员辨认研究工作均在此基础上开展。由于基于同一个模型,这也有利于不同结果间的比较。如 Dias 等人采用了 Vasilevskis-Sanders 的方法,使用 UCAC4 星表的数据对所有有记录的星团进行了成员星辨认,并将辨认的结果与其他人的工作进行了比对,通过详细讨论结果之间的区别,评估了不同星表数据的差异性,以及一些星团特有的性质对于成员辨认结果的影响。 ####- 2 非参数方法 #####-- 2.1 模型介绍 为了避开 Vasilevskis-Sanders 方法的一些不足,Cabrera-Cano 和 Alfaro提出了一种非参数方法,不需要用任何先验函数去拟合星团和场星,而是根据运动学数据或其他物理特性经验性地找到概率密度函数。 假设在一个区域内有 N 颗星,用 na × nb 的网格线来分割这片区域,对于每一个网格节点 (ai,bj),会相应地有一个密度值描述周围星的分布情况。如果区域内成员够多,网格足够密集,那么经验频率函数 Ψ(ai,bj) 会收敛于真实的频率分布函数 Φ(a,b)。 问题在于如何计算节点 (ai,bj) 所在区域的密度值。一个可行的方法是利用核函数 K(a,b)。假设以 (ai,bj) 为中心,r 为半径,统计该圆形区域内所有点的数量,除以圆的面积 πr2 作为密度值,则这里的核函数可定义为[19]: 确定了核函数之后,相应的经验频率函数可以定义为: 其中,(ak,bk) 为网格中的第 k 个格点。核函数中的参数控制着频率函数的拟合程度,被称为平滑参数,过大则会过度拟合,丢掉很多有用的信息;过小则结果中的噪声过大,可能会掩盖掉星团的信号。核函数 h 的选择可以参考如下公式: 其中,d 为空间维度,这里讨论的是二维,则 d = 2;σ 是样本的标准方差,表示为: σ = ∑σi2/d,i = 1,··· ,d . 得到频率函数之后,将其标准化就可以得到概率密度函数: 其中,∆a 和 ∆b 是网格大小。 #####-- 2.2 模型评价 相比于 Vasilevskis-Sanders 模型,非参数方法的优点在于不需要先对星团和成员星的分布作出假设。利用非参数方法,从天区中所有恒星在自行空间的整体分布函数中,分离出场星和星团成员星的分布函数 (如图 4 所示)。除了运动学数据之外,非参数方法还可以用于测光数据。Zhang 等人采用非参数方法处理了 LAMOST 光谱测光得到的视向速度数据,成功地完成了成员星辨认工作。天文领域的数据经常不够全面,质量参差不齐。对于运动学数据不够丰富而测光数据较全面的星团,可以采用非参数方法,并针对实际的数据特征进行相应的分析研究。 注:a) 距 NGC 1817 中心点周围 20′ 天区内恒星的自行分布经验频率函数;b) 场星的经验频率函数;c) 星团成员的经验频率函数。 图 4 NGC 1817 的星团成员及周围场星在自行分布上的经验频率函数 非参数方法的缺点也很明显,如果数据的观测误差过大,或者星团和场星的数据中心相接近时,则星团和场星的信号不易区分,这时候选取适当的平滑参数就显得十分重要。 Balaguer-Nunez 等人分别采用了 Vasilevskis-Sanders 方法和非参数方法对 NGC 1817 进行成员星辨认工作,并对这两个模型的结果做了详细的比对分析,虽然辨认结果相差不大,分析发现 Vasilevskis-Sanders 方法对初始参数的选取较为敏感,因此需要选择合乎物理意义的参数;非参数方法没有这个问题,但模型没有包含每个数据的自行误差,因此计算过程中亮星和暗星,以及测量误差大的和误差小的都拥有同等权重,对于结果的可靠性也有所影响。 ####- 3.Gaia 时代的新挑战 随着空间观测技术的发展,天体测量的精度也越来越高。Gaia 巡天计划的顺利进行,预示着天体测量领域将会进入一个新纪元。精确度更高的数据同时也会要求模型参数解算精度的提升,因此有必要探索新的成员星辨认模型,使得测量数据得到更好的应用。未来 Gaia 将会发布更多高精度的恒星运动参数数据,GES (Gaia-ESO Public Spectroscopic Survey) 还会提供视向速度、化学成分以及其他测光方面的信息,因此将这些高质量的数据综合起来,考虑建立多维度的成员星辨认模型是现在的发展方向,如将这些数据综合起来建立十二维 (12-Dimention) 的模型。Sampedro 和 Alfaro提出了一种成员星辨认的方法,在 N 维空间中计算每颗星距离星团中心的距离,迭代估计出星团中心。N 维数据包括位置、自行、视向速度等,只要星团成员星的分布比场星密集,即可进行成员星辨认。 另一种思路是应用机器学习领域的聚类算法,与非参数方法相同,聚类算法也不需要事先对成员星和场星分布做假设,直接利用原始数据找到分布较为密集的区域,以此确定星团的中心和成员。聚类算法的核心在于计算出每一个点与星团中心的距离 (大多数采用欧几里得度规),然后最小化目标函数 (一般是距离函数),迭代优化找到最优的星团中心位置。具体的聚类算法也分很多种,如 Gao 等人利用 DBSCAN (density-based spatial clustering of applications with noise) 聚类算法建立三维模型处理绝对自行和视向速度数据,对 NGC 6819 进行了研究。应用最广泛的是 K-means 算法,El Aziz 等人详细介绍了 K-means 应用于成员星辨认工作的流程,并应用于 NGC 188 和 NGC 2266 的辨认工作,结果证明 K-means 是一种有效的成员星辨认方法。但作为一种新的尝试,聚类算法的可靠性以及判定结果的准确程度还有待于进一步的研究论证。 ###**三、研究内容** - - (1)疏散星团的基本物理性质及多维特征可视化; 了解疏散星团各维度的物理意义及内在联系,如其在空间位置上的正态分布及其在速度空间上的正态分布,赫罗图的独特丝带状分布。根据这些特征来确定研究方案和方法,在前人已有基础上进行改进和尝试,实现研究目的。 对单位天区星进行空间分布与速度场进行可视化,测试散点图,密度图及点扩散图的效果,比较选取。对赫罗图进行多彩色可视化,考虑加入k均值聚类方法,充分利表现其形状特征和纹理特征。 - - (2)卷积神经网络模型的建立与集成学习的实现; 对上述可视化的图形建立卷积神经网络进行分类,所谓集成学习是指对多张图像识别结果的集成分析,再建立一个全连接神经网络模型,提高模型分类精度与对复杂对象的负载能力。模型参数调整使用Google的相关自动调参方法,训练在高性能GPU上实现,使用scikit-learn等软件进行数据集的划分与评估。 - - (3)与其他搜寻模型的比较; 最后将训练好的模型在相关测试数据集上进行测,比较其与经典的 Vasilevskis-Sanders 方法及非参数方法的性能指标,如准确度,精度,F1分数等,衡量模型的实用性。并依据此评估参数,对工作成果进行评估,明确改进方向与差距。 - - (4)对巡天数据进行网格划分并搜索疏散星团; 当模型各指标均表现优良且具有强的稳健性时将其部署于服务器,对gaia巡天数据进行自动化搜索。由于模型是对于局部天区的疏散星团存在概率判断,我们需要对巡天数据按天文经纬度进行数据网格划分。为了避免出现一个团被切碎导致判断失误,要设计多层级(多尺度)网格,并依次进行搜索,寻找所有可能存在在疏散星团,按概率排序输出其位置和预分类团星及其判断依据(空间位置分布图,速度场分布图以及多彩色赫罗图),完整实现自动是巡天数据中搜寻团结构。 ###**四、研究方法** 本文在写作过程中涉及较多研究方法,结合文献实例一一学习与应用; - (1)文献研究,了解前人的试验方案方法,吸取经验; - (2)试验研究,使用tensorflow平台进行数据试验,验证理论、模型和效率; - (3)理论研究,比较研究以及归纳总结的方法,进行理论推导和做出结论; - 具体研究方案如下: - 1、进行四维数据的疏散星团搜寻研究 - 1.1、数据集准备 - 1.1.1、模拟数据生成 挖取指定数据,人工分类为正负样本。同一类型数据存在指定的文件夹之下。 模拟数据使用空间位置数据与自行数据,对于空间数据的模拟,疏散星团成员采用一个弥散程度较高的二维正态分布,场星使用均匀分布。对与自行数据的模拟采用两个二维椭圆正态进行模拟(比例随机(1-5)),疏散星团成员弥散程度小,场星的弥散程度较大。- - 1.1.2、数据预处理 数据归一化在神经网络中,归一化是为了加速网络的收敛,提高训练速度。原因如下:假设在训练过程中存在两个特征,x1和x2,其中,x1特征区间为[0,2000],而x2特征区间为[1,9],在寻求最优的过程中,很可能走折线,而将特征进行归一化之后,梯度下降则更加接近于直线,也就加速了网络的收敛。其中,图7-2中,左图未进行归一化操作的梯度等高线,右图为归一化之后的梯度等高线。 归一化常用的方法包含: - (1)简单缩放; - (2)逐样本均值消减(也称为移除直流分量); - (3)特征标准化(使数据集中所有特征都具有零均值和单位方差)。 图5 归一化 图7-3 未归一化特征和归一化特征的梯度下降 - 1.1.3、数据可视化 将数据绘制为散点图或者点密度扩散图,主要为表示其空间位置分布的空间位置图和表示其速度场分布的自行矢点图。 - 1.1.4、数据导入 将data数据简易存储为便于模型训练使用的数据形式,此处由于是小规模试验,直接存为array,读入内存即可。对于大规模训练数据采取tfrecord格式保存,方便批次读取。 - 1.2、模型建立与集成学习 - 1.2.1、单模型建立 建立了一个多层的卷积神经网络模型,相关参数的选取与设置参考了christopher.J.Shallue 等人的论文。采用顺序模型,损失函数使用hinge,优化器使用adam, 评估参数为accuracy和recall。 模型中加入正则化层和Dropout层,从网络的结构设计上来避免过拟合的出现。 - 1.2.2、集成学习 将对于空间分布图的学习模型与对于速度场分布图的学习模型进行集成,最终输出结果为该组数据中存在疏散星团的概率。 - 1.2.3、模型训练 使用tensorflowflow平台在GPU上进行训练,使用自动调参获取最优超参数配置。 - 1.2.4、模型评估与分析 通过以下三个指标评估模型性能 - 1、精确度:Precision=TP/(TP+FP) - 2、召回率:Recall=TP/(TP+FN) - 3、F1分数:F1=2 (Precision*Recall)/(Precision+Recall) 注: - 真阳性(TP):预测是阳性,标签也是阳性,存在疏散星团并且模型成功判断。 - 假阳性(FP):预测是阳性,标签是阴性,存在疏散星团但模型判断不存在疏散星团;真阴性(TN):预测为阴性,标签也是阴性,不存在疏散星团,模型成功判断不存在疏散星团; - 假阴性(FN):预测为阴性,标签是阳性,不存在疏散星团,但模型判断存在疏散星团; - 1.2.5、模型应用 通过调用已经保存的模型,格式为*.h5。对导入的数据进行批量的自动分类处理。此处的模型储存于load_model_path的路径之下,数据存储于load_model_path路径之下。使用model.predict_class函数对数据进行预测,此处也可以使用model.predict函数,不过对比上面的函数,它的输出为概率值。如果不需要进一步做联合预测处理,可以直接输出最终的预测结果类别。 - 2、进行六维数据的搜寻疏散星团研究 - 2.1、原始数据采集 挖取指定数据,人工分类为正负样本。同一类型数据存在指定的文件夹之下。 - 2.2、数据预处理 - 2.2.1、原始数据清洗 原始数据存在缺陷,此处特指Gaia数据中存在为nan的情况。此值是无法识别的干扰项,对于此类,选择pandas进行空值的去除。同时我们仅提取数据集的有效部分,此处提取六维数据,Raj,Dej,PMra,PMde,BP-RP,Gmag。 - 2.2.2 不平衡样本处理 样本数目不平衡可能是影响分类结果的一个重要因素。在实际处理中,可以从数据和算法两方面来减弱或消除不平衡样本的影响。 在数据层面,可以对小类别进行数据重采样,即在小类别原有样本的基础上,通过引入微小噪声来生成新的样本,以此来增加小类别的样本数据。又或者对大类别进行数据下采样,即随机舍弃一部分样本来使得类别数目保持均衡,但这种方法会影响模型的泛化能力。 在算法层面,我们可以首先对各类别样本数目进行统计,进而设置相应的权重系数,以此来增加小类别样本错分的惩罚代价。 - 2.2.3 数据扩充 在深度学习中,经常会遇到数据集数量过少的问题,因此有效的数据扩充一方面可以增加训练样本的数目,另一方面也可以增加训练样本的多样性,提高模型的性能。 在本文中,所用到的数据扩充方式主要有数据二维正态分布中误差缩放(对应星团空间弥散程度),数学期望的改变(对应星团质心位置偏移),以及针对自行矢点图中的数据二维正态分布中误差缩放(对应星团速度弥散程度),数学期望的改变(对应星团质心平均速度改变)以及增加相关随机噪声 - 2.3、使用非监督学习方法进行拟团星与场星分割 - 2.3.1、了解DBscan方法(模拟团结构四维维正态分布和场星均匀分布数据,用此数据实现聚类分析) - 2.3.2、了解k均值聚类方法 在速度场上实现二聚类,假设密度大、数量少的一组为疏散星团成员,对其进行标记 0,其余星标记1. 此两种聚类方法选其中一种即可。 - 2.4、赫罗图可视化 将上述数据以BP-RP为横轴,Gmag为竖轴,场星表示为红色,团星表示为绿色,获得多彩色赫罗图。 ![输入图片说明](https://images.gitee.com/uploads/images/2019/0403/185812_91a382a1_4913476.png "cluster.PNG") 图 7 多彩色赫罗图 - 2.5、建立集成学习模型 分别对空间位置图,自行矢点图和多彩色赫罗图建立识别模型模型,并将各模型集成与一个全连接神经网络之下,最终输出其存在疏散星团概率。 - 2.6、模型配置、训练及评估 与四维状况类似,此处不在赘述。 - 2.7、模型应用 获取gaia巡天数据,对天区进行多层次网格化分,实现自动化搜寻团结构,并对其概率进行排序。交于天文学学者验证 - 3、数据的高维可视化研究 - 3.1、数据获取与预处理工作 同六维数据搜寻工作,应用所有给出数据。 - 3.2、数据的多维聚类 对数据的Raj、 Dej、Plx进行聚类分析,对自行数据PMra,PMde及Rv(Radial velocity)进行聚类分析,实现拟团星与场星的预分割。分别按其标识获取在其聚类结果在赫罗图上的多彩色图像,获取四张影像,即空间分布图,自行矢点图、空间聚类多彩色赫罗图、自行聚类多彩色赫罗图。也可引入其他数据进行处理,充分利用各维度数据。 - 3.3、集成模型的建立,训练、评估与应用 类同六维数据处理,此处不再赘述。 **五、预期成果** - (1)疏散星团模拟数据生成方案; - (2)实现疏散星团特征可视化,应用机器学习辅助解决疏散星团搜寻问题; - (4)设计相关天文数据处理程序一套; - (5)完成毕业设计一份; **六、任务安排** 略 **七、章节安排** - 摘要 - 1.绪论 - 2.深度神经网络与疏散星团性质 - 2.1、深度神经网络介绍 - 2.2、疏散星团物理性质与特征 - 3.创建训练集 - 3.1、cluster和标签 - 3.2、数据视图 - 3.3、模拟数据生成 - 4.模型实施 - 4.1、神经网络架构 - 4.2、实施和训练程序 - 4.3、模型平均 - 4.4、集成学习 - 5.模型分析 - 5.1、测试集性能 - 5.2、最佳模型配置 - 5.3、可视化模型 - 5.4、模拟数据的性能 - 5.5、与其他方法的比较 - 6.对新疏散星团数据进行测试 - 6.1、网格化分割 - 6.2、搜索新疏散星团 - 6.3、审核新的疏散星团 - 6.4、假阳性概率计算 - 7.讨论 - 7.1、新验证的数据 - 7.2、展望未来 - 8.结论 - 致谢 **八、参考文献** - [1]高新华, 王超, 顾晓清等. 基于DBSCAN聚类算法的疏散星团NGC 188的3维运动学成员判定[J]. 天文学报, 2017, 58(05): 67–74. - [2]俎中良, 赵君亮. 疏散星团的最新研究进展[J]. 天文学进展, 2003(02): 152–162. - [3]谢安琪, 齐朝祥. 星团成员辨认方法研究进展[J]. 天文学进展, 2018, 36(01): 17–28. - [4]RAZAVIAN A S, AZIZPOUR H, SULLIVAN J等. CNN Features Off-the-Shelf: An Astounding Baseline for Recognition[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, OH, USA: IEEE, 2014: 512–519. - [5]徐守坤, 王超, 庄丽华等. DBSCAN聚类算法在Gaia-DR2中检测疏散星团的研究[J]. 天文学报, 2018, 59(05): 17–27. - [6]GRUDIĆ M Y, GUSZEJNOV D, HOPKINS P F等. From the Top Down and Back Up Again: Star Cluster Structure from Hierarchical Star Formation[J]. Monthly Notices of the Royal Astronomical Society, 2018, 481(1): 688–702. - [7]SHALLUE C J, VANDERBURG A. Identifying Exoplanets with Deep Learning: A Five-planet Resonant Chain around Kepler-80 and an Eighth Planet around Kepler-90[J]. The Astronomical Journal, 2018, 155(2): 94. - [8]GENZEL R, EISENHAUER F, GILLESSEN S. The Galactic Center massive black hole and nuclear star cluster[J]. Reviews of Modern Physics, 2010, 82(4): 3121–3195. - [9]MAMAJEK E E, LAWSON W A, FEIGELSON E D. The η Chamaeleontis Cluster: A Remarkable New Nearby Young Open Cluster[J]. The Astrophysical Journal, 1999, 516(2): L77–L80. # cluster_search #### Description we try to use the tensorflow and AI to find the cluster from the gaia data. #### Software Architecture Software architecture description #### Installation 1. python3.6 2. numpy motplotlib and scikit-learn 3. ~ #### Instructions 1. xxxx 2. xxxx 3. xxxx #### Contribution 1. Fork the repository 2. Create Feat_xxx branch 3. Commit your code 4. Create Pull Request #### Gitee Feature 1. You can use Readme\_XXX.md to support different languages, such as Readme\_en.md, Readme\_zh.md 2. Gitee blog [blog.gitee.com](https://blog.gitee.com) 3. Explore open source project [https://gitee.com/explore](https://gitee.com/explore) 4. The most valuable open source project [GVP](https://gitee.com/gvp) 5. The manual of Gitee [https://gitee.com/help](https://gitee.com/help)![研究究方案流程](https://images.gitee.com/uploads/images/2019/0402/234456_bd5f0d97_4913476.png "研究方案流程 (2).png") 6. The most popular members [https://gitee.com/gitee-stars/] (https://gitee.com/gitee-stars/)![赫罗图] ![赫罗图](https://images.gitee.com/uploads/images/2019/0402/234954_021f04c4_4913476.png "cluster.PNG") (https://images.gitee.com/uploads/images/2019/0402/234236_86c15073_4913476.png "cluster 可视化")![cluster 可视化图![输入图片说明] (https://images.gitee.com/uploads/images/2019/0402/234344_3e19e216_4913476.png "cluster.PNG")](https://images.gitee.com/uploads/images/2019/0402/234301_5359de68_4913476.jpeg "0.jpg")