这篇文章题目是机器学习模型中不得不思考的问题’
那么有哪些是不得不思考的问题:
问题1.作为机器学习工程师,最重要的知识体系是哪几块?
模型与特征,和技术变现能力
模型构建:
机器学习 树形结构 搜索、推荐框架、计算广告
统计学习 LR/LASSO/RIDGE/GLMNET
深度学习 ensemble&DNN&CNN&RNN
特征工程:
变量选择、转换、交互作用刻画方法
噪音处理、缺失填充
样本失衡处理
技术变现:解决业务核心问题的专业能力
业务 如何沟通、理解业务目标
业务目标不清晰时,如何推进技术项目
优先级 什么情况下该做什么,怎么做
业务、特征、数据、模型
问题2.项目推进的时候有哪些核心要素?如何高效进行?
业务:项目的技术目标是否在解决当下核心业务问题
业务问题:业务KPI和deadline
界定问题:业务核心目标、场景
内核思考:定义目标概念,为什么要这么定义,更大的业务目标是什么,如何排期,目标概念与模型之间的关系是怎样的。
业务核心问题,关键场景;
评价模型的指标是什么;
项目输送给业务的关键信息;
业务如何运营这个信息;
评估方案:
追求闭环: 项目的输出是什么?如何运营?
特征:兼容模型、最优化为目标对数据进行加工
价值:突破项目天花板的有效武器
业务导向:特征源自研发,用特征充分刻画业务理解
方法论:变量体系、研发流程,旧特征精细化、新特征扩展
设计特征:现有的基数数据+业务“二维图”
业务“二维图”:把业务整个流程抽象成几个核心的维度进行考虑
数据:数据是模型性能的上确界
训练数据 一致对接 线上预测的业务场景
噪音的过滤 与99%准则
技术选型:在业务的约束下
业务导向:在项目排期,业务预期等多方面约束下,恰到好处的选型
项目本身:GBDT,LASSO
强业务解释型模型:如定价和反作弊
统计学习模型:Glmnet>LASSO>=Ridge>LR/Logistic
ridge通过正则化约束缓解了LR在过拟合方面的问题
lasso更是通过L1约束做类似变量选择的工作
Glmnet不需处理很难决定最优的约束强度的问题
开发复杂模型:RF<=GBDT<=XGBoost
XGBoost:轻量化模型和快速训练
GBDT:Gradient Boosting Decision Tree|它是一种基于决策树实现的分类回归算法
RF:Random Forest|基本的模型