大数据时代
小奈:表哥,为什么浏览器好像什么都知道的?我只是刚刚搜了下感冒怎么治,现在就弹出xx医院广告了。
大仁:当xx公司有了海量的数据,再根据这些数据进行精准营销(广告),他们每年都可以挣一大笔广告费。
大仁:广告虽然令人厌恶,但是数据推荐还是必要的,尤其是在信息大爆炸的时代,让信息更精准的出现在你手里。
大数据时代:人还需要隐私么?(不授权不给用)
视频地址
DBA
小奈:表哥,公司最近好像在招聘DBA(数据库管理员),后端工程师不就可以管理数据库的么?数据库和后端有什么区别?数据库又是什么呢?
大仁:看来你们公司是大公司喔,一般小公司没有dba的岗位。
其实我们常说的后端工程师,他们也设计和管理数据库。但是如果数据到了一定量级,数据库性能调优、安全稳定就需要专业的dba。
数据库是什么?
大数据背后的一块块基石,则是数据库。
数据库背后有好多故事,你可能不知道数据库,但是最近火的不行区块链,其实就是去中心化的分布式数据库。
说完高大上的区块链,我们开始回溯数据库的发展吧
文件&文件系统
最开始是计算机的出现,那时候没有硬盘,只有内存,数据不会进行存储,一般只用于科技计算,计算完输出结果后,程序就撤出内存了。
后来技术发展,才有了硬盘、文件,在文件的基础上有了文件系统。文件系统可以满足数据存放和查找的需求。
数据库的诞生
文件系统作为数据库用了一段时间,当数据越来越多、规模越来越大后,数据查找特别麻烦。数据很容易重复(冗余)、占用存储空间多,数据结构化被迫推进。
文件系统和数据库的主要区别是?
简单举个例子,如上图所示。我们理解的数据和文件比较接近,例如文件1存放了玩具狗的数据,文件2存放了系铃铛的狗的数据。但其实玩具狗、玩具猫都是玩具,铃铛和玩具是可以拆分的。数据库的结构化(玩具库架子),让数据不会重复,玩具狗可以系铃铛,也可以不系。
关系型数据库
数据库出现后,慢慢演化出关系型数据库,之后又演化成非关系型数据库。我们首先介绍关系型数据库,什么是关系型数据库?
关系数据就是指数据之间是有关系的。像是上图中系铃铛的玩具狗,铃铛是属于(系在)玩具狗,那我把铃铛取下来放到玩具猫上可以么?可以,那关系就变了,铃铛在数据库里的记录变更为属于猫。
其实数据库有个(存储的关系规范)数据库范式,第一范式到到第五范式。玩具狗与铃铛的拆分只是满足了第一范式,越往下数据的压缩率就越高,相应的存储也会变慢(需要关系范式验证)。
数据库的除了是结构化存储、它还可以共享给程序访问。文件系统时候,程序a读取文件1(小明的玩具),数据库时代,所有程序只要有权限就可以访问所有数据库里的数据(大家的玩具共享)。
数据表长什么样
数据:例如玩具狗,他的各个字段:玩具名称、是否有耳朵、多少条腿等等,玩具狗的所有信息算是一条数据。
数据表:玩具表就像一个excel表格,里面存了所有玩具的数据。
手机数据库:sqlite
网页和app的区别大家也都知道了,手机里有数据库,手机app的数据库和沙河一样,每个app都有自己仓库。
redis、memcache
不知道大家看视频的时候,是否喜欢快进,或者回放。
视频文件=几十万张图片(简单约等于),图片文件非常多。如果经常要重复从数据库中取出相同的数据,这种重复极大的增加了数据库负载。缓存是解决这个问题的好办法。浏览器中的虽然已经可以实现对页面局部进行缓存,但还是不够灵活,主要是视频文件。此时Memcached或许是你想要的,当你看一个视频来回拉动进度的时候,本地缓存很重要。
nosql
随着经济发展,村里小孩越来越多了(云计算的到来),玩具厂每年生产的玩具也多了。一个玩具库(单机)不够用了,所以要多建立几个公共玩具库,玩具存放在不同的玩具库(多台计算机)。为了满足数据爆发式增长的存储需求,数据库部署在多台计算机上,也就是分布式数据库,但是分布式和单机不同的地方在于关系严格性上,分布式要求数据关系不那么严格(半结构化),主要是扩容和大数据存储,所以Nosql(not only sql)就诞生了。
常见的Nosql有mongodb、hbase等,这里以mongodb为例。
数据库连接
var mongoose = require('mongoose')
var db = 'mongodb://127.0.0.1/test';
mongoose.connect(db, {
server: { poolSize: 20 }
}, function (err) {
if (err) {
console.log('connect to %s error:', db, err.message)
process.exit(1)
} else {
console.log('connected')
}
})
增删改查
var UserSchema = new Schema({
name: { type: String},
phone: { type: Number}
})
var User = mongoose.model('User', UserSchema);
//create 增加
var user1 = new User();
user1.name = 'jack1';
user1.phone = 123456;
user1.save(function (err) {
if (err) {
console.log(err.message)
}
})
var user2 = new User();
user2.name = 'jack2';
user2.phone = 234567;
user2.save(function (err) {
if (err) {
console.log(err.message)
}
})
//查找
User.find(function (err, users) {
if (err) {
return console.error(err)
}else {
console.log(users)
}
})
分布式vs集群
很多人可能会混淆分布式和集群的概念,分布式更像是业务拆分到不同服务器上,集群则是多台服务器一起处理同个业务。比较复杂,后续再解释。
数据库图鉴
目前市面上常见的数据库品牌,主要有关系型和非关系型数据库两种。计算机世界发展快速,数据库就像一个大生态,愈发多态化多样化。
- 关系型:Oracle、mysql、Postgresql
-
nosql: mongodb、hbase
区块链:去中心化的分布式数据库
回到区块链,大数据时代无隐私,区块链的去中心化能否保护隐私?
首先得介绍下去中心化,那么中心化又是什么?中心化就是我们常见的通讯模型,客户端需要以服务器获取数据(服务端和数据库交互),上次我们也讲过 输入url 后发生的事情,如果两个客户端之间互相知道彼此的地址,他们可以直接建立通讯。p2p技术常用于资源共享、音视频等。
区块链本质上是一种去中心化的分布式数据库,该数据库是由一串使用密码学方法产生的数据区块按时间顺序有序连接而成,每个数据块中包含了一段时间内的全网产生的无法篡改的数据记录信息。
区块链技术让我们的隐私得到了一定程度上的保护。
关于网络通讯、区块链后续继续展开。
失控
最后引用下凯文*凯里在《失控》里的一段话:
没有强制性的中心控制,次级单位具有资质的性质:次级单位之间批次高度连接,点对点间的影响通过网络形成了非线性因果关系。
计算机的高速发展,数据库不断进化,大数据越来越精确化,越来越智能,但用户也需要隐私,区块链这种去中心化、自组织的形态会不会成为新趋势?