【译】Swift算法俱乐部-选取样本

本文是对 Swift Algorithm Club 翻译的一篇文章。
Swift Algorithm Clubraywenderlich.com网站出品的用Swift实现算法和数据结构的开源项目,目前在GitHub上有18000+⭐️,我初略统计了一下,大概有一百左右个的算法和数据结构,基本上常见的都包含了,是iOSer学习算法和数据结构不错的资源。
🐙andyRon/swift-algorithm-club-cn是我对Swift Algorithm Club,边学习边翻译的项目。由于能力有限,如发现错误或翻译不妥,请指正,欢迎pull request。也欢迎有兴趣、有时间的小伙伴一起参与翻译和学习🤓。当然也欢迎加⭐️,🤩🤩🤩🤨🤪。
本文的翻译原文和代码可以查看🐙swift-algorithm-club-cn/Selection Sampling


选取样本(Selection Sampling)

目标:从n个项的集合中随机选择k个项。

假设你有一副52张牌,你需要随机抽取10张牌。 这个算法可以让你达成。

这是一个非常快的版本:

func select<T>(from a: [T], count k: Int) -> [T] {
  var a = a
  for i in 0..<k {
    let r = random(min: i, max: a.count - 1)
    if i != r {
      swap(&a[i], &a[r])
    }
  }
  return Array(a[0..<k])
}

正如洗牌算法经常发生的那样,它将数组划分为两个区域。 第一个区域包含所选项; 第二个区域是所有剩余的项。

一个例子。 假设一个数组是:

[ "a", "b", "c", "d", "e", "f", "g" ]

我们想选择3个项目,所以k = 3。 在循环中,i最初为0,因此它指向"a"

[ "a", "b", "c", "d", "e", "f", "g" ]
   i

我们计算i和数组的大小a.count之间的随机数。 假设这个随机数是4。 现在我们将"a"与索引为4的"e"交换,然后向前移动i

[ "e" | "b", "c", "d", "a", "f", "g" ]
         i

|栏表示两个区域之间的分割。 "e"是我们选择的第一个元素。 我们继续需要关注|栏右侧的所有内容。

再一次,我们要求ia.count之间的随机数,但因为i已经移位,随机数永远不会小于1。所以我们再也不会交换"e"了。

假设随机数为6,我们将"b""g"交换:

[ "e" , "g" | "c", "d", "a", "f", "b" ]
               i

还有一个随机数,假设它是4。 我们将"c""a"交换,最终左边已经选择的项为:

[ "e", "g", "a" | "d", "c", "f", "b" ]

就是这样。 十分简单。 这个函数的性能是O(k),因为只要我们选择了k元素,就结束了。

下面是一种替代算法,称为“水库抽样”(Reservoir Sampling):

func reservoirSample<T>(from a: [T], count k: Int) -> [T] {
  precondition(a.count >= k)

  var result = [T]()      // 1
  for i in 0..<k {
    result.append(a[i])
  }

  for i in k..<a.count {  // 2
    let j = random(min: 0, max: i)
    if j < k {
      result[j] = a[i]
    }
  }
  return result
}

有两个步骤:

  1. 使用原始数组中的第一个k元素填充result数组。 这被称为“水库”。
  2. 用剩余池中的元素随机替换水库中的元素。

该算法的性能为 O(n),因此它比第一算法慢一点。但是,它的最大优点是它可以用于太大而无法容纳在内存中的数组,即使你不知道数组的大小是多少(在Swift中这可能类似于读取文件元素的懒惰生成器)。

前两种算法有一个缺点:它们不保留原始顺序的元素。在输入数组中,"a"出现在"e"之前,但现在却是另一种顺序。如果要顺序不变,则无法使用上面的方法。

下面这种替代方法,可以保持原始顺序的完整性,但需要更多空间参与:

func select<T>(from a: [T], count requested: Int) -> [T] {
  var examined = 0
  var selected = 0
  var b = [T]()
  
  while selected < requested {                          // 1
    let r = Double(arc4random()) / 0x100000000          // 2
    
    let leftToExamine = a.count - examined              // 3
    let leftToAdd = requested - selected

    if Double(leftToExamine) * r < Double(leftToAdd) {  // 4
      selected += 1
      b.append(a[examined])
    }

    examined += 1
  }
  return b
}

该算法使用概率来决定是否在选择中包括一个数字。

  1. 循环从头到尾逐步完成数组。 它一直持续到我们从n的集合中选择k个项。 这里,krequestedna.count

  2. 计算0到1之间的随机数。我们想要0.0 <= r < 1.0。 上限是排他性的; 我们从不希望它是1。这就是为什么我们将结果从arc4random()除以0x100000000而不是更常见的0xffffffff

  3. leftToExamine是我们还没有看过的项数目。 leftToAdd是我们在完成之前还需要选择的项数。

  4. 这就是魔术发生的地方。 基本上,我们正在翻转一枚硬币。 如果是heads,我们将当前数组元素添加到选择中; 如果是tails,我们就跳过。

有趣的是,即使我们使用概率,这种方法总是保证我们最终得到输出数组中的k项。

让我们再次讨论相同的例子。 输入数组是:

[ "a", "b", "c", "d", "e", "f", "g" ]

循环依次查看每个元素,因此我们从"a"开始。 我们得到一个介于0和1之间的随机数,假设它是0.841。 // 4处的公式将要检查的项目数乘以此随机数。 还有7个元素需要检查,结果是:

7 * 0.841 = 5.887

我们将此与3进行比较,因为我们想要选择3个项目。 由于5.887大于3,我们跳过"a"并继续移动动"b"

再一次,我们得到一个随机数,比方说0.212。 现在只剩下6个要检查的元素,因此公式结果是:

6 * 0.212 = 1.272

小于3,我们在选择中添加"b"。 这是我们选择的第一个项,所以还剩下两个。

到下一个元素,"c"。 随机数为0.264,得出结果:

5 * 0.264 = 1.32

只要再选择2个项,因此这个数字必须小于2。它是,我们还在选择中加入"c"。 总选择是["b","c"]

只要再选择1个项,但仍有4个候选项要查看。 假设下一个随机数是0.718。 该公式现在给出:

4 * 0.718 = 2.872

要选择此元素,数字必须小于1,因为只剩下1个项要选择。 2.872不是,所以我们跳过"d"。 只剩下三种可能性 - 我们会在耗尽元素之前选到它吗?

随机数为0.346。 该公式给出:

3 * 0.346 = 1.038

有点太高了。 我们跳过"e"。 只有两名候选项了......

请注意,现在字面上我们正在处理抛硬币:如果随机数小于0.5,我们选择"f",我们就完成了。 如果它大于0.5,我们继续最后的元素。 假设我们得到0.583:

2 * 0.583 = 1.166

我们跳过"f"并查看最后一个元素。 无论我们在这里得到什么随机数,它应该总是选择"g"或者我们不会选择足够的元素而算法不起作用!

假设我们的最终随机数是0.999(记住,它永远不会是1.0或更高)。 实际上,无论我们在这里选择什么,公式总是会给出小于1的值:

1 * 0.999 = 0.999

因此,如果我们还没有足够多的选择,那么总是会选择最后一个元素。最后的选择是[ "b", "c", "g" ]。请注意,元素仍处于原始顺序,因为我们是从左到右查询数组。

也许你还不相信......如果我们总是将0.999作为随机值(最大可能值),那还能选择3项吗? 好吧,让我们做数学:

7 * 0.999 = 6.993     小于3吗? no
6 * 0.999 = 5.994     小于3吗? no
5 * 0.999 = 4.995     小于3吗? no
4 * 0.999 = 3.996     小于3吗? no
3 * 0.999 = 2.997     小于3吗? YES
2 * 0.999 = 1.998     小于2吗? YES
1 * 0.999 = 0.999     小于1吗? YES

它总是有效! 但这是否意味着靠近数组末尾的元素比一开始的元素更有可能被选中? 不,所有元素同样可能被选中。 (如果不相信我的话:在playground 看一下快速测试,在实践中证明了这一点。)

以下是如何测试此算法的示例:

let input = [
  "there", "once", "was", "a", "man", "from", "nantucket",
  "who", "kept", "all", "of", "his", "cash", "in", "a", "bucket",
  "his", "daughter", "named", "nan",
  "ran", "off", "with", "a", "man",
  "and", "as", "for", "the", "bucket", "nan", "took", "it",
]

let output = select(from: input, count: 10)
print(output)
print(output.count)

第二种算法的性能是O(n),因为它可能需要遍历整个输入数组。

注意: 如果k > n / 2,那么以相反的方式执行它并选择要删除的a.count - k项更有效。

代码基于发表于1993年10月Dobb博士的杂志的Algorithm Alley。


作者:Matthijs Hollemans
翻译:Andy Ron
校对:Andy Ron

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容