STL string与Go string

P.S. 这里不讨论COW(copy-on-write)和SSO(short-string-optimization)

STL string(gcc 4.9.3)

通过源码可以发现,std::string继承与basic_string模板,而basic_string中仅包含_Alloc_hider _M_dataplus一个非静态变量,而_Alloc_hider仅包含一个指针,所以sizeof(string)可能会出乎你的意料。

class basic_string
{
      //统计信息结构
      struct _Rep_base
      {
        size_type               _M_length;    //长度
        size_type               _M_capacity; //能力
        _Atomic_word       _M_refcount; //引用计数
      };

      struct _Alloc_hider : _Alloc
      {
        _CharT* _M_p; // The actual data. //真实数据,就是个char*
      };
private:
      ....
      // Data Members (private):
      // 可以看到string仅包含这一个数据字段
      mutable _Alloc_hider      _M_dataplus;
      ....
};

关于basic_string有一个取巧的地方 : basic_string的统计数据放在data之外,通过数组[-1]获取;这样的好处是既不占用basic_string内存,又可以在O(1)时间内获取结构已申请内存、已使用内存和引用计数(用于COW)。

 _Rep*
 _M_rep() const _GLIBCXX_NOEXCEPT
 { return &((reinterpret_cast<_Rep*> (_M_data()))[-1]); }

获取真实数据

_CharT*
_M_data() const _GLIBCXX_NOEXCEPT
{ return  _M_dataplus._M_p; }

图解

                                    +---------> +-----------+
                                    |           | _M_length||
                                    |           +-----------+
                                    |           |_M_capacity|
                                    |           +-----------+
                                    |           |_M_refcount|
                                    |           +-----------|
                                    |
                                    |
                                    |
                                    |
  _M_rep()   --> +-------------+    |
                 | _Rep_base   +----+
                 +-------------+
basic_string --> | _M_dataplus +----+
                 +-------------+    |
                                    |
                                    |            +---------------+
                                    +----------> |1234567890.....|
                                                 +---------------+   

写个简单程序验证下

// 禁止编译优化 输出调试信息
// g++ -O0 -gdwarf-3 -o test test.cpp 
(gdb) p p
$4 = (std::string *) 0x7fffffffe3d0
(gdb) p (*((const std::string* )0x7fffffffe3d0)->_M_rep())._M_length
$5 = 9
(gdb) p (*((const std::string* )0x7fffffffe3d0)->_M_rep())._M_capacity
$6 = 9
(gdb) p (*((const std::string* )0x7fffffffe3d0)->_M_rep())._M_refcount
$7 = 0

在_M_p需要更新而_M_capacity不足以放得下所有数据时,会引发内存分配;而其他操作,比如length()、iterator、operator[]等就是通过_M_data()结合_M_rep()进行一系列逻辑运转的,这里就不在一一赘述。

Go string

来看下Go string的定义以及*byte转换成string的源码
位于 src/runtime/string.go

// string is the set of all strings of 8-bit bytes, conventionally but not
// necessarily representing UTF-8-encoded text. A string may be empty, but
// not nil. Values of string type are immutable.
type string string

//可见string由两部分组成:指向字符真实地址的指针、字符串的长度

type stringStruct struct {
        str unsafe.Pointer
        len int
}

// 强转成指针
func stringStructOf(sp *string) *stringStruct {
        return (*stringStruct)(unsafe.Pointer(sp))
}

// 由byte指针转string
func gostring(p *byte) string {
        l := findnull(p)
        if l == 0 {
                return ""
        }
        s, b := rawstring(l)
        memmove(unsafe.Pointer(&b[0]), unsafe.Pointer(p), uintptr(l))
        return s
}

// 分配内存、初始化
func rawstring(size int) (s string, b []byte) {
        p := mallocgc(uintptr(size), nil, false)

        stringStructOf(&s).str = p
        stringStructOf(&s).len = size

        *(*slice)(unsafe.Pointer(&b)) = slice{p, size, size}

        for {
                ms := maxstring
                if uintptr(size) <= ms || atomic.Casuintptr((*uintptr)(unsafe.Pointer(&maxstring)), ms, uintptr(size)) {
                        return
                }
        }
}

来看一个简单的例子验证下:

func main() {

        s := "1234567890"
        sLen := len(s)
        fmt.Println(sLen)

        s2 := s[3:]
        sLen2 := len(s2)
        fmt.Println(sLen2)
}
(gdb) p s
$1 = {
  str = 0x4a5857 "12345678906103515625GOMAXPROCScasgstatuscomplex128float32nanfloat64nangcscandonegoroutine gp.stkbar=invalidptrowner diedplainErrorruntime: gschedtracesemacquireterminatedtracefree(tracegc()\nunknown pc"..., len = 10}
(gdb) p s.str
$2 = (
    uint8 *) 0x4a5857 "12345678906103515625GOMAXPROCScasgstatuscomplex128float32nanfloat64nangcscandonegoroutine gp.stkbar=invalidptrowner diedplainErrorruntime: gschedtracesemacquireterminatedtracefree(tracegc()\nunknown pc"...

//这里可见 s2.str - s.str == 3

(gdb) p s2.str
$3 = (
    uint8 *) 0x4a585a "45678906103515625GOMAXPROCScasgstatuscomplex128float32nanfloat64nangcscandonegoroutine gp.stkbar=invalidptrowner diedplainErrorruntime: gschedtracesemacquireterminatedtracefree(tracegc()\nunknown pc (t"...
(gdb) p &s
$4 = (struct string *) 0xc420057ea8

// 而s2与s的地址缺相差16 正好是stringStruct的大小(64位机器)

(gdb) p &s2
$5 = (struct string *) 0xc420057e98
(gdb) p s2.len
$6 = 7

内存布局类似这样

                            +-----------------------+
                            |12345678906103515....  |
                            ++--+-------------------+
                             ^  ^
                             |  |
s:                           |  |
  +---+                      |  |
  |str+----------------------+  |
  +---+                         |
  |len|  10                     |
  +---+                         |
                                |
s2:                             |
  +---+                         |
  |str+-------------------------+
  +---+
  |len|  7
  +---+

Go string中的元素是不可修改的,append(+)操作也是将两个参数的内容拷贝至新申请内存中,因此连续调用+运算符会有性能瓶颈;此外,string与[]byte相互转换也会有新对象产生(必要时可以通过不安全指针转换代替)。当然Go提供了操作string的方法集strings,如Join等操作哎一定程度上可以优化性能。

总结比较

string STL Go
自身可写
length复杂度 O(1) O(1)
分配内存

参考文献

[1]. STL源码剖析 -- 侯捷
[2]. Redis设计与实现 -- 黄健宏
[3]. Go语言读书笔记 -- 雨痕

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,517评论 18 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,514评论 18 399
  • 对色彩的感知,理所当然是一件美好的事情, 如果把它们“编织”起来,达到不同的形态, 应该是一件更美好的事情。 宝贝...
    Filby阅读 971评论 0 51
  • 老爸文化程度不高,年轻时入伍当过兵。老爸一直还保留着当年当兵时发的衣服和生活用品,特别喜欢,舍不得扔。因为这...
    kaitlin凯婷阅读 358评论 0 3
  • 第一次看小王子,应该还在高中。“感动了成千上万成年人的童话”,看到腰封上的这句宣传语,懂,也不太懂。故事内容很简单...
    包汤汤阅读 722评论 1 2