string
string在Go语言内存模型中用2字长(不同CPU,字长不同)的数据结构表示,与C++ STL实现的string类似,由指向固定地址的str
指针和表示字符串长度的len
组成。
type string struct {
var strptr unitptr
var strlen uint
}
因此,对string的赋值以及作为函数的参数传递,都只是指针的传递,实际指向相同的底层数据。在Go语言中,string
类型是不可变,所以多字符串共享同一个存储数据是安全的。
可以理解为go的string变量被编译器分配到只读段,对应的数据地址不可写入。但实际如果对string变量做修改,编译器就会报错,比如
cannot assign to str[0]
数组
数组的长度是固定的,长度是数组类型的组成部分,即[4]int与[5]int是完全不同的类型。
数组不用显示的初始化,数组元素会自动初始化为其对应元素类型的零值。
数组对应内存是连续的,以[4]int
为例,其对应内存中4个连续的整型数据。
go中的数组是值语义,与C/C++不同,一个数组变量表示整个数组,而不是指向第一个数组元素的指针,所以当一个数组变量被赋值或传递时,实际上会复制整个数组。我们在写函数时,根据实际的需要来决定函数入参是否用数组指针。但是当数组比较大时,建议使用数组指针,避免复制数组带来的开销。
slice
slice是基于数组构建的,写法是[]T
,T
为元素类型。声明上与数组唯一不同的是slice类型没有指定元素个数。
sli := []byte("abc")
slice可以通过内置函数make创建,make函数内部会分配一个数组,然后返回这个数组对应的切片
s := make([]byte, 5, 5)
当容量参数被忽略时,默认与长度一致。
s := make([]byte, 5) //与 make([]byte, 5, 5)相同
slice通过内置函数new([]T)
初始化时,new函数返回的是指向slice的指针,不能直接进行下标操作。
sp := new([]int) //内存分配并置零,不能直接下标操作
var s []int //s默认值为nil,也不能直接下标操作
sp为slice类型指针,s为slice类型,cap
和len
都为0。
new函数用C来描述,相当于:
T* t = (T*)malloc(sizeof(T))
memset(t, 0, sizeof(T))
slice的零值是nil
,对于slice的零值,len
和cap
都将返回0。
slice可以基于现有的string、slice或数组生成。slice的范围由两个冒号分隔的索引对应的半开区间[a,b)
指定。
str := "abcde"
sli1 := str[:] //基于string类型生成
array := [3]string{"abc","def", "ghi"}
sli2 := array[0:2] //基于数组类型生成
s := []byte("abcde")
sli3 := s[:] //基于slice类型生成
slice内部实现
slice通过内部指针和相关属性引用数组片段,其扩展方式和数据结构与C++的vector很相似。slice本身是结构体,作为参数传递时传递的是slice本身而不是其引用的底层数据,因此表现是引用语义,但结构体本身是值语义。
type slice struct {
var array unsafe.Pointer
var len int
var cap int
}
一个slice是一个数组片段的描述,其包含了指向数组的指针,片段的长度以及自身容量。
slice结构中,
len
为slice引用的元素数目,cap
为slice底层元素的数目。
s := array[2:4]
slice并不复制slice指向的元素,它创建一个新的slice并复用底层数组,使得slice操作和数组索引一样高效。
s2 := s1[1:3] //s1为slice
增加slice长度时,不能超过容量,否则会运行异常。
s = s[:cap(s)]
如果添加元素会超过slice容量,则需要使用append
函数,重新分配内存,底层数组进行复制,此时新的slice与原始slice内存不同,相互不影响。
问题
slice操作不会复制底层的数组而是引用,因此整个数组会保存在内存中,直到它不再被引用才会被释放。所以有可能slice操作只是引用很小的内存导致保存所有内存,比如
s2 := s1[1:3]
,而s1的底层数组占很大的内存,由于s2引用了s1的一小部分,s1会保存在内存中。
如何避免
s2 := make([]byte, len(s1[1:3]))
copy(s2, s1[1:3])
string与[]byte的转化
在go语言编码过程中,经常将两者进行转换,每次相互转化都会发生底层数据的复制,但性能损失。
//string 转 []byte
str := "123"
sli := []byte(str)
//[]byte转string
str = string([]byte)
关于string与[]byte转换的问题,后面再讨论。