10钢材缺陷检测分类

数据预处理

# 导入数据
import pandas as pd
import numpy as np

import plotly_express as px
import plotly.graph_objects as go

from plotly.subplots import make_subplots

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="whitegrid")
%matplotlib inline

import warnings
warnings.filterwarnings("ignore")

df = pd.read_excel("faults.xlsx")
df.head()

image.png

# 数据分割
df1 = df.loc[:,"Pastry":]
df2 = df.loc[:,:"SigmoidOfAreas"]
df1.head()

image.png

# 下面是27个特征的数据
df2.head()

image.png

# 分类标签生成
columns = df1.columns.tolist()
columns

image.png

for i in range(len(df1)):
    for col in columns:
        if df1.loc[i, col] == 1:
            df1.loc[i, "Label"] = col

df1.head()

image.png

# 类型编码
dic = {}
for i, v in enumerate(columns):
    dic[v] = i
    
dic

image.png

df1["Label"] = df1["Label"].map(dic)
df1.head()

image.png

# 数据合并
df2["Label"] = df1["Label"]
df2.head()

image.png

EDA

# 数据的基本统计信息
# 缺失值
df2.isnull().sum()

image.png

# 单个特征分布
parameters = df2.columns[:-1].tolist()

sns.boxplot(data=df2, y="Steel_Plate_Thickness")
plt.show()

image.png

从箱型图中能够观察到单个特征的取值分布情况。下面绘制全部参数的取值分布箱型图

fig = make_subplots(rows=7, cols=4)

for i, v in enumerate(parameters):
    r = i // 4 + 1
    c = (i + 1) % 4
    
    if c == 0:
        fig.add_trace(go.Box(y=df2[v].tolist(), name=v), row=r, col=4)
    else:
        fig.add_trace(go.Box(y=df2[v].tolist(), name=v), row=r, col=c)
        
fig.update_layout(width=1000, height=900)
fig.show()

image.png

1.特征之间的取值范围不同，从负数到10M
2.部分特征的取值中存在异常值
3.有些特征的取值只存在0和1

样本不均衡

# 每种类别数量
df2["Label"].value_counts()

image.png

可以看到第6类的样本有673条，但是第4类的样本只有55条。明显地不均衡

# SMOTE解决
X = df2.drop("Label", axis=1)
y = df2[["Label"]]

from imblearn.over_sampling import SMOTE

smo = SMOTE(random_state=42)
X_smo, y_smo = smo.fit_resample(X, y)
y_smo

image.png

# 实施上采样后的结果
y_smo["Label"].value_counts()

image.png

统计一下每个分类变量的数量：现在我们发现每个类别下的样本是一样的，克服了样本不均衡问题

建模

# 随机打乱数据
from sklearn.utils import shuffle

df3 = pd.concat([X_smo, y_smo], axis=1)
df3 = shuffle(df3)

# 数据集划分
from sklearn import preprocessing

X = df3.drop("Label", axis=1)
X = preprocessing.scale(X)
y = df3[["Label"]]

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=4)

# 建模评价
from sklearn.model_selection import cross_val_score
from sklearn import metrics

def build_model(model, X_test, y_test):
    model.fit(X_train, y_train)
    # 预测概率
    y_proba = model_LR.predict_proba(X_test)
    # 找出概率值最大的所在索引，作为预测的分类结果
    y_pred = np.argmax(y_proba, axis=1)
    y_test = np.array(y_test).reshape(943)
    
    print(f"{model}模型得分：")
    print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
    print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

# 逻辑回归
from sklearn.linear_model import LogisticRegression

model_LR = LogisticRegression()
build_model(model_LR, X_test, y_test)

image.png

逻辑回归

# 建模
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn import metrics

model_LR = LogisticRegression()
model_LR.fit(X_train, y_train)

image.png

# 预测概率
y_proba = model_LR.predict_proba(X_test)
y_proba[:3]

image.png

# 找出概率值最大的所在索引，作为预测的分类结果
y_pred = np.argmax(y_proba, axis=1)
y_pred[:3]

image.png

# 评价
# 混淆矩阵
confusion_matrix = metrics.confusion_matrix(y_test, y_pred)
confusion_matrix

image.png

y_pred.shape

image.png

y_test = np.array(y_test).reshape(943)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

随机森林回归

from sklearn.ensemble import RandomForestClassifier

model_RR = RandomForestClassifier()
model_RR.fit(X_train, y_train)

image.png

# 预测概率
y_proba = model_RR.predict_proba(X_test)
# 最大概率的索引
y_pred = np.argmax(y_proba, axis=1)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

SVR

from sklearn.svm import SVC

svm_model = SVC(probability=True)
svm_model.fit(X_train, y_train)

image.png

# 预测概率
y_proba = svm_model.predict_proba(X_test)
# 最大概率的索引
y_pred = np.argmax(y_proba, axis=1)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

决策树回归

from sklearn.tree import DecisionTreeClassifier

model_tree = DecisionTreeClassifier()
model_tree.fit(X_train, y_train)

# 预测概率
y_proba = model_tree.predict_proba(X_test)
# 最大概率的索引
y_pred = np.argmax(y_proba, axis=1)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

神经网络

from sklearn.neural_network import MLPClassifier

mlp = MLPClassifier()
mlp.fit(X_train, y_train)

# 预测概率
y_proba = mlp.predict_proba(X_test)
# 最大概率的索引
y_pred = np.argmax(y_proba, axis=1)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

GBDT

from sklearn.ensemble import GradientBoostingClassifier

gbdt = GradientBoostingClassifier(
#        loss="deviance",
#        learning_rate=1,
#        n_estimators=5,
#        subsample=1,
#        min_samples_split=2,
#        min_samples_leaf=1,
#        max_depth=2,
#        init=None,
#        random_state=None,
#        max_feature=None,
#        verbose=0,
#        max_leaf_nodes=None,
#        warm_start=False
)
gbdt.fit(X_train, y_train)

# 预测概率
y_proba = gbdt.predict_proba(X_test)
# 最大概率的索引
y_pred = np.argmax(y_proba, axis=1)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

LightGBM

from lightgbm import LGBMClassifier

lgb = LGBMClassifier()
lgb.fit(X_train, y_train)

# 预测概率
y_proba = lgb.predict_proba(X_test)
# 最大概率的索引
y_pred = np.argmax(y_proba, axis=1)

print("召回率: ", metrics.recall_score(y_test, y_pred, average="macro"))
print("精准率: ", metrics.precision_score(y_test, y_pred, average="macro"))

image.png

来源：尤而小屋

最后编辑于：2023.04.02 21:21:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

10钢材缺陷检测分类

数据预处理

EDA

样本不均衡

建模

逻辑回归

随机森林回归

SVR

决策树回归

神经网络

GBDT

LightGBM

推荐阅读更多精彩内容