接下来要啃的书是这本,《R 数据可视化手册》。
书不厚,是一本随用随查的实用工具书,是用 R做可视化的基础入门书籍。
主要内容
本书主要内容如下:
首先是
条形图
、散点图
和折线图
的绘制,描述数据分布的图形
;然后是一些图形元素知识,包括
注释
、坐标轴
、整体外观
、图例
、分面
和配色
;最后是
其他图形
、图形输出
和数据塑性
。
我们后面将依次啃每一章节。
准备工作
处理数据知识
可视化的目的是把数据包含的信息用更直观的方式展示出来。
那么,首先肯定是处理数据
,掌握R基础知识,足以应付80%
的可视化前的数据处理问题。
愿意的话,可以参考我之前的文章,《R 语言实战》学习笔记。
读入数据的语句
学习这本书中内容,需要用到的R 包包括但不限于,ggplot2
、MASS
、gcookbook
、foreign
等。安装和加载不再赘述。
同时还需要掌握,read.csv
、 read.table
、 read.xlsx
和 read.spss
等语句的使用。
加载分隔符文件
- 逗号分隔符
read.csv("datafile.csv")
为了不将一些字符自动转换为因子,可以加上参数:
read.csv("datafile.csv",stringsAsFactors = FALSE)
当然也可以使用适用范围更广的 read.table
语句读取逗号分隔符文件:
read.table(file = "datafile.csv", sep = ",")
更多read.table
的使用方法,运行语句?read.table
查看。
从 EXCEL 文件加载数据
可以安装加载xlsx包进行读取。
install.packages("xlsx")
library(xlsx)
实话说,加载这个包,会报JAVA环境
没安装的错: JAVA_HOME cannot be determined from the Registry
。
要解决这个问题,还得安装JDK
。这真的是为了吃猪肉还得从养猪开始
。性价比极低,直接用read.table
完全可以胜任。
但是相关知识点还是得知道。
read.xlsx
语句默认读取工作簿的第一张sheet
read.xlsx("filename.xlsx")
可以指定sheet
的索引
或者名称
,使用下面的语句:
read.xlsx("filename.xlsx", sheetIndex= n)
read.xlsx("filename.xlsx", sheetName= "sheetname")
另外,还有gdata包的read.xls
可以使用,这里不再赘述。
从SPSS文件加载数据
安装加载包foreign
,使用read.spss
语句读取.sav
文件。
install.packages("foreign")
library(foreign)
read.spss("filename.sav")
当然了,SAS数据集也可以读入,使用read.ssd()
语句。
以上。