python数据结构与算法--算法引入与时间复杂度

  • 算法引入:

    如果a+b+c=1000,且a2+b2=c^2(a,b,c为自然数),如何求出所有a,b,c可能的组合?

    解决:枚举法 思路:a=0,b=0,c=1/2/3....

    import time
    start_time = time.time()
    for a in range(0,1001):
      for b in range(0,1001):
          for c in range(0,1001):
              if a + b + c == 1000 and a**2 + b**2 == c**2:
                  print("a,b,c:%d,%d,%d"%(a,b,c))
    end_time = time.time()
    print("times:%ds"%(end_time-start_time))
    print("finished")
    输出:
    a,b,c:0,500,500
    a,b,c:200,375,425
    a,b,c:375,200,425
    a,b,c:500,0,500
    times:261s
    finished
    
  • 算法是独立存在的一种解决问题的方法与思想,对于算法而言,实现的语言并不重要,重要的是思想

  • 算法的五大特性

    • 输入:算法具有0个或多个输入
    • 输出:算法至少有1个或多个输出
    • 有穷性:算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成
    • 确定性:算法中的每一步都有确定的含义,不会出现二义性
    • 可行性:算法的每一步都是可行的,也就是说每一步都能够执行有限的次数完成

二、复杂度分析

1、算法效率衡量

  • 上述例子算法改进:

    import time
    start_time = time.time()
    for a in range(0,1001):
      for b in range(0,1001):
          c = 1000 - a - b  #给出了a,b后,c的值就已经是确定下来的了
          if a**2 + b**2 == c**2:
              print("a,b,c:%d,%d,%d"%(a,b,c))
    end_time = time.time()
    print("times:%ds"%(end_time-start_time))
    print("finished")
    输出:
    a,b,c:0,500,500
    a,b,c:200,375,425
    a,b,c:375,200,425
    a,b,c:500,0,500
    times:2s
    finished
    
  • 执行时间反应算法效率

    由上述的两段程序的执行时间(261秒与2秒),可以得出结论:实现算法程序的执行时间可以反应出算法的效率,即算法的优劣。

  • 单靠时间值是不绝对可信的!

    假设第二次的算法实在一台性能很差的计算机中运行,运行时间可能与第一次运行时间差不了多少,故:单纯依靠运行时间来比较算法的优劣并不一定是客观准确的!程序的运行离不开计算机环境(包括硬件和操作系统),客观原因影响程序运行的速度,即每台机器执行的总时间不同,但是执行的基本运算数量大体相同,故下述引入时间复杂度概念。

2、时间复杂度

(1)什么是大O?

  • n表示数据规模,O(f(n))表示算法所需要执行的指令数,和f(n)成正比。其中f(n)是n的一个函数。
    在业界,O(f(n))表示算法执行的最低上界。(更详细概念请百度)

    记T为执行指令数

    上述第一个python代码:T = 1000 * 1000 * 1000 * 2 (三个循环,一条if语句,一条print语句)

    若题目变为a+b+c = 2000,则T = 2000 * 2000 * 2000 * 2

    改为a+b+c = n ,则T=n * n * n * 2

    总结:对于一个算法来说,T与数据规模n有关,即T(n)= n^3*2,当n较大时,T(n)= n^3,常数不计。

    算法 所需执行指令数
    二分查找法O(logn) a*logn
    寻找数组中的最大/最小值O(n) b*n
    归并排序算法O(nlogn) c*nlogn
    选择排序法O(n^2) d*n^2

    对于算法的时间性质与空间性质,最重要的是其数量级和趋势,这些是分析算法效率的主要部分,而计量算法基本操作数量的规模函数中那些常量因子可以忽略不计。如上:a,b,c,d均为常数 ,当数据规模较大时,算法消耗的时间复杂度与这些常数关系不大,而是与n所在项相关,故此时一般省略常数!

    例如:

    算法A:O(n) 所需执行指令数:10000*n

    算法B:O(n^2) 所需执行指令数:10*n^2

    对比不同n规模时算法A,B的指令数情况:

    n A的指令数10000n B的指令数10n^2 倍数
    10 10^5 10^3 100
    100 10^6 10^5 10
    1000 10^7 10^7 1
    10000 10^8 10^9 0.1
    10^5 10^9 10^11 0.01
    10^6 10^10 10^13 0.001

    可见,时间复杂度大O衡量的是量级的差异。当n达到某个值时,时间复杂度低的算法一定比时间复杂度高的算法运算时间快,n越大,差距越明显。(数据规模较小时,时间复杂度高的算法有常数上的优势,还是可以使用的,一般情况下,使用复杂度较低的算法更优)

  • 若设计的算法有两部分,则整个算法以量级最高的作为主导的时间复杂度。如:

    O(nlogn+n)= O(nlogn)

    O(nlogn+n^2)$= $O(n^2)

    注:上面式子的前提是 :这两部分对应的规模n是一样的,而像O(AlogA+B)这种类型的,此处A和B的规模可能不一样,故不能省略掉AlogA这部分(对邻接表实现的图进行遍历,时间复杂度是O(V+E),V是顶点数,E是边数,不能随便替换)

(2)最坏时间复杂度

  • 分析算法时,存在几种可能的考虑:

    • 算法完成工作最少需要多少基本步骤,即最优时间复杂度

    • 算法完成工作最多需要多少基本步骤,即最坏时间复杂度

    • 算法完成工作平均需要多少基本步骤,即平均时间复杂度

    对于最优时间复杂度,其参考价值不大,反映的是最乐观最理想的情况;对于最坏时间复杂度,提供了一种保证,表明算法在此种程度的基本操作中一定能完成工作;对于平均时间复杂度,全面反映算法的性质,但其也会因为应用算法的实例分布不均匀而难以计算;因此,我们主要关注算法的最坏情况,即最坏时间复杂度

  • 算法复杂度在有些情况是用例相关(即与待排数据分布情况有关)的,比如:

    插入排序算法O(n^2):最差情况:O(n^2);最好情况:O(n) ;平均情况(业界):O(n^2)

    快速排序算法O(nlogn):最差情况:O(n^2) (随机化情况下,退化成最差情况的概率比较低);最好情况:O(nlogn);平均情况(业界):O(nlogn)

(3)时间复杂度计算

  • 时间复杂度的几条计算规则

    • 基本操作,即只有常数项,认为其时间复杂度为O(1)
    • 顺序结构,时间复杂度按加法计算
    • 循环结构,时间复杂度按乘法计算
    • 分支结构,时间复杂度取最大值
    • 判断一个算法的效率时,往往只需关注操作数量的最高次项,其他次要项和常数项可以忽略
    • 在没有特殊说明时,我们所分析的算法的时间复杂度都是指最坏时间复杂度
  • 常见时间复杂度消耗时间大小:
    O(1) < O(logn) < O(n) < O(nlogn) < O(n^2) < O(n^3) < O(n!) < O(2^n)

  • 问题:有一个字符串数组,将数组中每一个字符串按照字母序排序;之后再将整个字符串数组按照字典序排序。整个操作的时间复杂度?

    错误解答:把字符串数组长度与每一个字符串的长度都统一当成了n
    O(n*nlogn+nlogn)=O(n^2log2n)
    
    正确解答:
    --假设最长的字符串长度为s(因为大O算的是上界);数组中有n个字符串
    --对每个字符串排序:O(slogs)
    --将数组中的每一个字符串按照字母序排序:O(n*slogs)
    --将整个字符串数组按照字典序排序:O(s*nlog(n)) (排序算法中nlogn表示的是比较的次数,通常说的对整型数组排序只需进行nlogn次比较,是因为两个整数进行比较在计算机中是O(1)级别的,而此处字符串比较字典序,还需耗费O(s)
    --综上:O(n*slogs)+O(s*nlog(n))=O(n*slogs+s*nlog(n))=O(n*s*(logs+logn))
    
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容