数学建模全流程总结,从数据预处理到模型评价

些同学临近比赛开始紧张心慌,快比赛了觉得自己什么都不会怎么办?队友和我都不会编程建模怎么办?说到底这只是一次比赛,赛前一定要调整好自己的心态,至于怎么去学,没有比直接参赛更能促进学习的方法,比赛中遇到不会的知识再正常不过了,学会去网上搜现学现用就够了。第一次参加数学建模比赛的同学,可能不太知道数学建模拿到题目之后的整个流程是怎么样的,今天就和大家来分享一下数学建模的全流程。

数学建模常用方法大致可分为四大部分:数据预处理、基本描述、建模、模型评价,如下图:

接下来将逐个进行介绍说明。

一、数据预处理

国赛的数据预处理是指进行数据的清洗和变换,预处理的质量会直接影响到后续建模和预测的准确性。数据清洗也就是我们常说的缺失值处理和异常值处理,数据变换是指对数据进行标准化、归一化等无量纲化处理,常见的数据预处理方式见下图:

1、异常值处理

异常值也称离群值,其数值明显偏离它所属样本集的其余观测值。忽视异常值的存在可能会对建模结果产生不良影响。

1)识别异常值

  • 可视化方法:使用箱线图、散点图等可视化工具来识别异常值。

  • 统计方法:使用Z-score、IQR(四分位距)等方法来识别数据点是否为异常值。

2)处理异常值的方法

异常值处理通常有以下4种方式:

2、缺失值处理

对缺失值进行处理方法通常有删除、填充、插值3类方法,说明如下表:

对于异常值和缺失值的处理,可以使用SPSSAU【数据处理】模块的【异常值】方法进行处理,操作如下:


3、量纲处理

量纲处理是指通过数据变换来消除原始变量的量纲影响的方法,使模型更加稳定和准确。常见的量纲处理方法包括标准化、归一化、中心化、正向化、逆向化、适度化等等,说明如下:

SPSSAU提供17种数据无量纲化处理方法,在【数据处理】模块选择【生成变量】操作如下:

选择合适的无量纲化方法取决于数据的分布特征和后续建模的需求。通常需要尝试多种方法并比较效果。

二、描述性分析

在数学建模中,描述性统计分析是一种基本的数据探索方法,是理解数据特征的重要步骤。它帮助模型开发者理解数据的基本特征、分布情况以及变量之间的关系。

描述性统计分析步骤:

  • 计算基本统计量:均值、中位数、标准差等

  • 绘制可视化图表:直方图、箱线图等

  • 分析数据分布:是否正态分布,是否有偏态

  • 检查相关性:变量间的关系


描述性统计分析方法整理表格如下:


三、建模

数学建模关键的步骤就在于模型的选择与构建,根据问题的性质选择合适的模型类型,如分类模型、评价模型、预测模型等。

1、分类模型

分类模型是一种按照数学模型来分类数据的算法。它通过对给定的历史数据进行分析,根据已知的分类规则来对新的数据进行预测。常见的分类模型有聚类分析、判别分析、logistic回归以及机器学习等。


1)聚类分析

常用的聚类分析分为K-means聚类、K-modes聚类、K-prototype聚类以及分层聚类。其中前三种聚类方法是按行聚类(R型聚类),分层聚类是按列聚类(Q型),最常用的为K-means聚类,各自适用场景说明如下表:



2)判别分析

判别分析用于根据已知的分类信息对观测数据进行分类。判别分析有很多种,比如Fisher判别、距离判别、Beyes判别等,其中Fisher判别使用频率最高



3logistic回归

logistic回归可以用于分类,它的核心思想是利用逻辑函数将线性回归的结果转化成一个概率值,这个概率值可以用来进行分类。logistic回归分析可细分为二元logistic回归、多分类logistic回归、有序logistic回归。各自适用场景说明如下表:


4)机器学习

机器学习算法中常用于分类的模型包括决策树、随机森林、KNN、神经网络、朴素贝叶斯、支持向量机等等。具体说明如下:

2、评价模型

在数学建模中,评价模型通常指的是对构建的模型进行评估,以确定其性能和适用性。评价模型的目的是确保模型能够准确地反映实际问题,并且能够提供有效的决策支持。在评价模型中,常用的方法如层次分析法、模糊综合评价、灰色关联法、主成分分析法、TOPSIS法、数据包络分析、秩和比等等,如下表:


除以上单一评价模型以外,还可以使用多种方法进行组合评价

3、预测模型

数学建模预测模型是一种利用数学模型和统计方法来预测未来可能发生的结果的模型。它通常基于历史数据和已知信息,通过建立数学模型来分析问题,并预测未来的发展趋势。预测类常见的方法有时间序列类预测、回归分析进行预测、机器学习进行预测、马尔科夫预测或者其它方法组合预测等

1)时间序列预测

时间序列数据是按照时间顺序排列的数据集合,例如每天的销售量、每月的股票价格等。预测时间序列数据可以帮助我们了解未来的趋势和模式,从而做出更准确的决策。比较常用的时间序列数据预测方法有ARIMA预测、指数平滑法、灰色预测模型、VAR模型、季节Sarima模型,说明如下:


2)回归分析预测

回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。常用方法如多元线性回归、logistic回归、非线性回归等,说明如下:


3)机器学习预测

机器学习用于从数据中学习模式和规律,并利用这些知识进行预测通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。常用方法及说明如下:

四、模型评估

在进行模型构建与分析时,模型评价是非常关键的一步。合适的评价指标可以帮助我们准确地衡量模型的性能,从而进行优化和改进。然而,不同的模型和应用场景需要使用不同的评价指标。下图为回归模型和分类模型常用评价指标


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容