Spark Mllib中逻辑回归

1相关参数设置

<1> setMaxIter()：设置最大迭代次数

<2> setRegParam()：设置正则项的参数，控制损失函数与惩罚项的比例，防止整个训练过程过拟合，默认为0

<3> setElasticNetParam()：使用L1范数还是L2范数
setElasticNetParam=0.0 为L2正则化；
setElasticNetParam=1.0 为L1正则化；
setElasticNetParam=(0.0，1.0) 为L1，L2组合

<4> setFeaturesCol()：指定特征列的列名，传入Array类型，默认为features

<5>setLabelCol()：指定标签列的列名，传入String类型，默认为label

<6>setPredictionCol()：指定预测列的列名，默认为prediction

<7>setFitIntercept(value:Boolean)：是否需要偏置，默认为true（即是否需要y=wx+b中的b）

<8>setStandardization(value:Boolean)：模型训练时，是否对各特征值进行标准化处理，默认为true

<9>fit：基于训练街训练出模型

<10>transform：基于训练出的模型对测试集进行预测

<11>setTol(value:Double)：设置迭代的收敛公差。值越小准确性越高但是迭代成本增加。默认值为1E-6。(即损失函数)

<12>setWeightCol(value:String)：设置某特征列的权重值，如果不设置或者为空，默认所有实例的权重为1。

上面与线性回归一致，还有一些特殊的：
<1> setFamily：值为"auto"，根据类的数量自动选择系列，如果numClasses=1或者numClasses=2，设置为二项式，否则设置为多项式；
值为"binomial"，为二元逻辑回归；
值为"multinomial"，为多元逻辑回归

<2> setProbabilityCol：设置预测概率值的列名，默认为probability（即每个类别预测的概率值）

<3> setRawPredictionCol：指定原始预测列名，默认为rawPrediction

<4>setThreshold(value:Double)：二元类阈值[0-1]，默认为0.5，如果预测值大于0.5则为1，否则为0

<5>setThresholds(value:Array[Double])：多元分类阈值[0-1]，默认为0.5

image.png

2 Demo

2.1

    val spark = SparkSession.builder()
      .master("local[2]")
      .appName("LinearRegression")
      .getOrCreate()


    val training = spark.read.format("libsvm").load("src/main/resources/sample_libsvm_data.txt")

    training.show(20,false)

    val lr=new LogisticRegression().setLabelCol("label")
      .setFeaturesCol("features")
      .setRegParam(0.2)
      .setElasticNetParam(0.8)
      .setMaxIter(6)

    val model=lr.fit(training)

    val test = spark.createDataFrame(Seq(
      (1.0, Vectors.sparse(692, Array(10, 20, 30), Array(-1.0, 1.5, 1.3))),
      (0.0, Vectors.sparse(692, Array(45, 175, 500), Array(-1.0, 1.5, 1.3))),
      (1.0, Vectors.sparse(692, Array(100, 200, 300), Array(-1.0, 1.5, 1.3))))).toDF("label", "features")

    test.show(false)

    model.transform(test).show(false)

结果显示：

image.png

其中probability中第1位代表预测为0的概率，第2位代表预测为1的概率

2.2

显示每次迭代的时候的目标值，即损失值+正则项

    val trainingSummary=model.summary
    val objectiveHistory=trainingSummary.objectiveHistory
    println("objectiveHistory:")
    objectiveHistory.foreach(loss=>println(loss))

image.png

这里有一个疑问：最终的迭代次数总是会比设置的最大迭代次数，多1次；
设置的最大迭代次数为6，最后迭代次数为7

2.3 打印评估指标

    val binarySummary=trainingSummary.asInstanceOf[BinaryLogisticRegressionSummary]
    //评估指标
    //roc值
    val roc=binarySummary.roc
    roc.show(false)
    val AUC=binarySummary.areaUnderROC
    println(s"areaUnderRoc:${AUC}")

roc的值：

image.png

AUC的值：

image.png

2.4 设置模型阈值

F1值就是precision和recall的调和均值

    //获取不同的阈值对应的不同的F1值
    val fMeasure=binarySummary.fMeasureByThreshold
    fMeasure.show(false)
    val df=fMeasure.withColumnRenamed("F-Measure","F1")
    //获得最大的F1值
    val maxFMeasure=df.selectExpr("max(F1)").head().getDouble(0)
    println(maxFMeasure)
    //找出最大F1值对应的阈值
    val bestThreshold=df.where(s"F1=$maxFMeasure").select("threshold").head().getDouble(0)
    //并将模型的threshold设置为选择出来的最佳分类阈值
    println(s"bestThreshold:$bestThreshold")
    model.setThreshold(bestThreshold)

结果：
这里的F-Measure必须得重命名一下，不然一致会报错。(好像是中间'-'的原因)

image.png

最大的F1值：1.0

对应阈值：

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

Spark Mllib中逻辑回归

1相关参数设置

2 Demo

2.1

2.2

2.3 打印评估指标

2.4 设置模型阈值

推荐阅读更多精彩内容