pipelines中文意思是计算机流水线作业,通过pipelines的api可以很方便的实现数据工作流:数据源->特征转换->数据建模->数据预言
pipeline常用组件
- Transformer:一个抽象概念,包括特征转换和数据预言
- Estimator:作用于训练数据的抽象概念,例如逻辑回归(用回归思维解决分类问题)的算法
逻辑回归
- aggregationDepth: (>= 2) (default: 2)
- elasticNetParam: 正则化范式比,正则化有两种方式:L1(Lasso)和L2(Ridge),L1用于特征的稀疏化,L2用于防止过拟合(default: 0.0)
- family: (default: auto)
- featuresCol: 设置特征列(default: features)
- fitIntercept: (default: true)
- labelCol: 设置标签列(default: label)
- lowerBoundsOnCoefficients: (undefined)
- lowerBoundsOnIntercepts: . (undefined)
- maxIter: (>= 0) (default: 100)
- predictionCol: 设置预测列(default: prediction)
- probabilityCol: (default: probability)
- rawPredictionCol: (default: rawPrediction)
- regParam: 正则化主要用于防止过拟合现象,如果数据集较小,特征维数又多,易出现过拟合,考虑增大正则化系数 (>= 0) (default: 0.0)
- standardization: 标准化 (default: true)
- threshold: 设置二分类阈值, [0, 1] (default: 0.5)
- thresholds: 阈值-多元分类 (undefined)
- tol: 迭代算法的收敛性 (>= 0) (default: 1.0E-6)
- upperBoundsOnCoefficients: (undefined)
- upperBoundsOnIntercepts: (undefined)
- weightCol: 权重系数