240 发简信
IP属地:陕西
  • 聊聊python的分位数

    0 简介 在日常的数据分析中,分位数 是非常重要的一环,在探查数据分布,定义指标中都必不可缺。但 python 里的分位数计算却潜藏了一些坑点,特分享。 1 是什么 1.1 ...

  • 如何处理python里的Nan和None

    0 前言 数据分析师在使用python进行数据分析时,经常会遇到 Nan 和 None 这两个数据缺失值,但它们两并不互相等价,有很多细微的差别。笔者将在下面对 Nan 和 ...

  • 120
    数据分析的点、线、面

    数据分析的点、线、面 前言 在告别了人口红利之后,对于成熟或平台型产品而言,增长的核心不再是对增量用户的扩张,而是对存量用户的精细化运营,提升转化效率及用户价值挖掘,其中数据...

  • 120
    浅谈指标

    前言 在日常工作中,数据同学经常会遇到以下问题 产品:为什么A页面的数据和B页面的数据对不上数据:我去看看一段时间后.....数据:A页面数据是来自于AA表,计算逻辑是AAA...

  • 120
    深入解析数据仓库的支架表

    前言 支架表是维度设计中非常有意思的一部分,可以说是星型模型和雪花模型的结合;但在大部分维度建模书里都只是简单的一笔带过,实在是过于可惜。 在本文,笔者会对支架表进行详细的介...

  • 120
    如何正确的开发BI——浅谈BI项目管理

    前言 在大部分的公司里,数据部门的产出主要都是提取数据和 数据可视化(BI);提数工作无需多说,写好SQL即可。但BI则不同,即使在BAT等非常重视数据的公司中,它也是数据部...

  • 120
    浅谈ETL

    前言 ETL 开发是数据工程师必备的技能之一,在数据仓库、BI等场景中起到重要的作用。但很多从业者连 ETL 对应的英文是什么都不了解,更不要谈对 ETL 的深入解析,这无疑...

  • 120
    解析数据仓库里的"元数据管理"

    引言 元数据管理是企业数据治理的基础,是数据仓库的提升;作为一名数据人,首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位。 什么是...

  • 120
    浅谈BI

    引言 本文主要面向对象是,对BI完全不了解,或只是初步了解的人。从宏观角度介绍了BI的基本信息,并附以大量的图表作为说明。期望能帮助大家对BI有更深层次的理解。如有不同见解,...

  • 120
    深入解析数据仓库中的缓慢变化维

    前言 最近公司在招聘数仓开发,笔者负责技术方面的一些问题,缓慢变化维 自然是是不可缺少的环节。 但出乎笔者预料的是,所有的面试者都没有完整了解 缓慢变化维 的前因后果及处理方...

  • 120
    浅谈 数据清洗

    预处理阶段 该阶段主要做2件事: 将数据原封不动的抽取导入,切记永远不要对源数据进行直接的清洗修改。 了解数据: 整理记录元数据,包括但不限于字段解释、数据来源、计算方式等 ...

  • 如何处理hive中的数据倾斜

    什么是数据倾斜 hive在shuffle的部分操作时,由于数据key的分化不均,造成有的节点数据很多,而有的节点数据很少。表现在实际应用上: 总任务一直看在99%,单个节点一...

  • 老铁,这只是把超过100M的文件移出仓库了,还是没办法把大文件提交上Github呀