处理数据清洗和数据丢失

所有数据均由kaggle获取

1)数据清洗:

1.通过热力图观察特征值之间的关系

  在图中,我们定义了下面的特征:

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',

      'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',

      'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',

      'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',

      'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',

      'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',

      'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',

      'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',

      'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',

      'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',

      'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',

      'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',

      'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',

      'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF',

      'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC',

      'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType',

      'SaleCondition', 'SalePrice'],

      dtype='object')。


2.当某些特征比较相似且无法分别时,可以删除相对来说比较弱的特征

3.因为大部分的统计原理和参数检验都是基于正态分布推得的。所以当数据不符合正态分布时,就需要将数据进行数据转换(对数据取log,可以解决大部分问题)

            如图下图,数据在初始时,数值分散大,二图数值分散多:

        对数值取log后:


2)数据丢失:

1.丢失数据操作,当特征内的数据丢失大于某个百分比,可以删除一些比较偏远的数值

    eg:在预测某个地方的房价时,某些features的数据可能会产生一些奇怪的数值,如下图所示,图中的右边有两颗数据点离整体极远,且无法分析原因时候,则可以把这两个数据定义为离群值,并进行删除操作



2.当是偏态且有相当的观察值为0时,无法进行对数操作。为了在这里应用一个log转换,我们将创建一个变量,该变量可以获得拥有或没有地下室(二进制变量)的效果。然后,我们将对所有非零的观测做一个对数变换,忽略那些值为0的观测值。这样我们就可以转换数据,而不会失去地下室的影响。

3.对两个变量进行方差检验的最佳方法是将其图形化显示出来

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容