配置值说明spark.sql.parquet.adaptiveFileSplittrue不知道spark.sql.adaptive.hashJo...
多Leader备份(Multi-Leader Replication) 这章当目前位置我们都在讨论单Leader的备份架构,这个方案用的很普遍,...
备份落后的问题 备份的原因不仅仅是容错性,像前面说到的,减小延迟和扩展性也是目标。Leader-based的备份会把所有的写请求通过一个节点完成...
备份意味着把你的数据的多个副本放置在不同的机器上,这些机器通过网络连接。如第二章综述所讲,备份的好处有以下几点 允许你的数据离你的用户在地理位置...
之前的第一部分我们都在讲的是单机的数据系统。第二部分我们上一个台阶,当有多台机器的时候,我们需要如何进行数据的存储和查询?为什么我们需要一个多机...
消息队列数据流 这部分会简要介绍一种异步消息传递系统,在某种意义上讲是在数据库和RPC的折中方案。他与RPC相似点在于都是一个客户端用一个很短的...
Avro Avro是2009年发起的一个hadoop的子项目,他也是一种二进制的编码方式,但是和Thrift和Protocol Buffer不尽...
综述 我们的应用往往不可避免的需要进行更新,添加新的功能。在第一章讲过了应用具有可进化性,也就是说我们的应用应该在设计之初就拥抱变化。大多数情况...
面向列的存储 如果你的数据仓库有超过PB级的数据以及有超过几千亿行记录,那如何高效的存储和查询对你来说就是一个技术活了。属性表相对来说就要小很多...