随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景...
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景...
1、背景 实际生产中,我们经常会面临导入Excel数据到数据库的需求,在没有编写导入程序,数据库客户端工具导入情况下。我们可以通过Excel本身的公式构建出sql语句,可复制...
库名称简介 Chardet 字符编码探测器,可以自动检测文本、网页、xml的编码。 colorama 主要用来给文本添加各种颜色,并且非常简单易用。 Prettytable ...
开始时间: 2019-11-26 预计时间7天。作者:托马兹[美] 本书常用下载地址:1.RDD章节文件下载:http://tomdrabas.com/data/VS14M...
数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spar...
柱形图因其一目了然的特点,成为最常用的分析图表之一。而堆叠柱形图则可以更清晰地比较某一个维度中不同类型数据之间的差异,也深受分析用户推崇。 很多 Tableau 用户在使用堆...
前言 近两年,KUDU 在大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,KUDU 都有着不可替代的地位。本文通过分析 KUDU 的设计, 试图解释为什么...
1.模型的区分度 评分模型的作用是通过分数将好坏样本进行区分。理想情况下,所有非违约人群的分数均高于违约人群的分数。因此我们需要某些统计量来衡量好坏样本的分数差异性,...
关于盒须图如果你想显示一组数据的分布情况:例如:一目了然地理解数据,查看数据如何向某一段偏斜,查看数据中的异常值。建议使用盒须图,它是显示数据分布情况的重要方式。 如果你想显...