SQL是结构化查询语言,在数据分析工作中,可用于提取数据和查询数据。
1.预备知识
1.1什么是SQL
结构化查询语言(Structured Query Language)简称SQL(发音:/ˈes kjuː ˈel/ “S-Q-L”),是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。
1.2是什么是表
数据表是由表名、表中的字段和表的记录三个部分组成的。
表的结构:
*表名:表名要确保其唯一性,表的名称要与用途相符,简略、直观、见名知意。
*字段名称:
⑴字段名长度小于64个字符。
⑵字段名可以包括字母、汉字、数字、空格和其他字符。
⑶字段名不可以包括句号(。)、感叹号(!)、方括号([])和重音符号(、)。
⑷字段名不可以以先导空格开头。
*字段类型:字符型,文本型,数值型,逻辑型和日期型。
*字段属性:如字段大小、格式、默认值、必填字段、有效性规则、有效性文本和索引等。
*确定表中唯一能识别记录的主关键字段,即主键。
2.基本语法
SQL有多命令,我们现在只学习 select 提取命令。SQL中的语法以命令关键字开始,以分号结尾,不区分大小写。
select:从表中提取数据。
以 family_memebers表为例,提取表中的全部数据。
SELECT*FROMfamily_members;
//提取表中的所有数据
然后输出以下结果:
按条件提取:select * From table_name Where condition;可以是某个字段,还支持逻辑运算。
SELECTname,num_books_readFROMfamily_members;//提出姓名,阅读数量从家庭成员中
SELECT*FROMfamily_membersWHEREnum_books_read>0;//阅读数量大于零的所有记录//另外还有'< ''=''>=''<='
other: and / or
SELECT*FROMfriends_of_picklesWHEREheight_cm>25ANDspecies='cat';//从表中提取身高大于25cm且物种为猫的所有记录。//如果是'OR'则满足其一条件即可。
结果如下:
除此之外还有IN,DISTINCT,ORDER BY,COUNT,SUM,AVG等。
教程网站:
练习网站:
3.JOIN语法
在实际的数据分析中,需要在多个表之间提取数据。JOIN可以连接两个及以上的表,基于他们之间的共同字段。即在上文中提到的每个表需要的主键,A表中的主键需要在B表中有对应的字段,A表和B表才能连接。
现在有如下三个表:character(角色ID和角色姓名) ,character_tv_show(电视剧ID、角色ID,电视剧名称),character_actor(演员ID、角色ID、演员姓名)。
从表中可以看出角色姓名、电视剧名称、演员姓名三个重要信息分属三个表,现在若要将他们对应起来,则需要用JOIN连接基于他们的共同字段。
INNER JOIN
现在有一个需求:提取角色名称以及对应的电视剧名称。查询语句可以这样写:
SELECTcharacter.name,character_tv_show.tv_show_nameFROMcharacterINNERJOINcharacter_tv_showONcharacter.id=character_tv_show.character_id;//ON后面表示两表共同字段,‘表名.字段名’表示表中的某个字段。//如果有需要还可以在查询后面增加WHERE条件。
查询结果如下:
LEFT JOIN
现有如下三张表
需求是取出所有角色对应的电视剧名称。与上文不同的是,这次需要提取的两张表之间并没有共同的字段名,需要与第三张表建立连接,这叫 multiple joins。查询语句如下:
SELECTcharacter.name,tv_show.nameFROMcharacterLEFTJOINcharacter_tv_showONcharacter.id=character_tv_show.character_idLEFTJOINtv_showONcharacter_tv_show.tv_show_id=tv_show.id;//线连接A表和C表得到角色名与对应的电视剧ID,然后电视剧ID与B表连接,即可查询出角色名与电视剧名。
查询结果如下:
INNER JOIN与LEFT JOIN区别
前者只返回连接的表之间的共同字段间有数据的行,后者会返回左表的所有行,无论右表中是否有对应的字段值。RIGHT JOIN 与LEFT JOIN相反,则不再演示。
SELF JOIN
有时候需要查询的数据就在一个表中,需要用SELF JOIN定义连接关系。现有表 employee,需要提取员工姓名对应的老板姓名。
查询语句:
SELECTE1.nameASemployee_name,E2.nameASboss_nameFROMemployeesASE1INNERJOINemployeesASE2ONE1.boss_id=E2.id;
查询结果:
可以看出,方法是相当于把 employee 拆分为employee 表(E1),和 boss 表(E2),分别对应字段 name,boss_id和 name,id。拆出两张表后方法与上文提到的JOIN 类似。