数据集统计特征研究
From Machine Learning
问题
假设从一个数据集中采样出一系列子数据子集,每个子集具有不同的数据分布特征,如何建立一个机器学习方法可以从这些子集中学习和捕捉数据分布特征?
思路
生成模型是在学习数据集的隐藏分布,很多算法可以提供帮助,比如流模型等。
使用流模型从标准分布,学习一个变换,可以得到数据集分布,如果把某已知变量(如碰撞能量、中心度等)作为标准分布的一个维度,其他维度可以理解为未知变量(相变信息等)。
假设从一个数据集中采样出一系列子数据子集,每个子集具有不同的数据分布特征,如何建立一个机器学习方法可以从这些子集中学习和捕捉数据分布特征?
生成模型是在学习数据集的隐藏分布,很多算法可以提供帮助,比如流模型等。
使用流模型从标准分布,学习一个变换,可以得到数据集分布,如果把某已知变量(如碰撞能量、中心度等)作为标准分布的一个维度,其他维度可以理解为未知变量(相变信息等)。