課程連結:
台灣交通大學 統計學(一) Statistics I 唐麗英老師
[統計學筆記及整理]
第三章.機率(Probability)
單元一.機率概念之介紹
第一章與第二章介紹了一些統計概念及統計量。當群體的參數不知時,必須要以樣本的統計量來推論群體的參數,此時就必須知道群體資料分佈的情況。而群體資料分佈的情況,乃是基於機率理論,因此,本單元介紹一些基本的機率概念與機率分佈。
定義一:實驗(Experiment)
實驗是指一個可記錄一些觀察體量測值的過程(Process)。
例 :
- 擲一個銅板一百次
- 擲一個骰子十次
- 量測某物一百次
定義二:樣本空間(Sample Space,S)
一個實驗的所有可能出現的結果之集合稱為樣本空間。
例 :
- 擲一個骰子一次,S={1,2,3,4,5,6}
- 擲一個銅板兩次,S= {(++),(+-),(-+),(--)}
- 52張撲克牌抽一張
定義三:事件(Event)
實驗的結果稱為事件,在機率論中,隨機事件(或簡稱事件)指的是一個被賦與機率的事物集合,也就是樣本空間中的子集,當這個事件僅僅包括樣本空間的一個元素(或者說它是一個單元素集合)的時候,稱這個事件為一個基本事件。
例:
1)事件A={骰到奇數}={1,3,5}、事件B={骰到6}={6}=基本事件
2)事件A={骰到同一面}={(+,+),(-,-)}
3)事件A={抽到鬼牌}={}=不可能事件
定義四:事件A的機率:
其中,#(𝑨) 表 A 事件中元素個數,#(𝑺) 表樣本空間中之元素個數。
● 事件 A 與 B 之間有三個可能的關係:
[𝑷(𝑨|𝑩)為B發生的條件下A發生的機率],[𝑷(𝑨,𝑩)為A,B同時發生的機率]
- 相依 (dependent) – 事件 A 的發生會受事件 B 的影響,反之亦然。
𝑷(𝑨,𝑩) = 𝑷(𝑨|𝑩)×𝑷(𝑩) = 𝑷(𝑩|𝑨)×𝑷(𝑨) = P(A∩B)
𝑷(𝑨|𝑩) = 𝑷(𝑨,𝑩)÷𝑷(𝑩) = 𝑷(𝑩|𝑨)×𝑷(𝑨)÷𝑷(𝑩) - 獨立 (independent) – 事件 A 的發生與事件 B 的發生無任何關係或彼此不會互相影響。
𝑷(𝑨,𝑩) = 𝑷(𝑨)×𝑷(𝑩) = P(A∪B)
𝑷(𝑨|𝑩) = 𝑷(𝑨)
𝑷(𝑩|𝑨) = 𝑷(𝑩) - 互斥 (mutually exclusive) – 若事件 A 與事件 B 不可能同時發生,則兩事件互斥。
𝑷(𝑨,𝑩) = 0 = P(A∩B) = 0 = A∩B = ∅
例 :假設兄弟隊與三商隊進行一場棒球賽,在進行 9 局後,可能的結果有:{兄弟隊贏三商隊、兄弟隊輸三商隊、兄弟隊與三商隊平手}。
令 A={兄弟隊贏三商隊}, B={兄弟隊輸三商隊 }, C={兄弟隊與三商隊平手},則事件 A,B 與 C 之間的關係為何?
ABC互為互斥事件
● 機率三原理:
1)0 ≦ 𝑷(𝑨) ≦ 1 對樣本空間中任一事件 A
2)𝑷(∅)= 0 (無元素(空集合)機率=0), 𝑷(𝑺)= 1 (樣本空間(所有集合)機率=1)
3)若 𝑨𝟏, 𝑨𝟐, ⋯ 𝑨𝑲 互為互斥事件,則 𝑷(𝑨𝟏 ∪ 𝑨𝟐 ∪ ⋯ ∪ 𝑨𝑲) =𝑷(𝑨1)+𝑷(𝑨2)...+𝑷(𝑨𝑲)
例 :從五十二張撲克牌隨機抽出一張牌,求以下之機率:
A)抽出一張黑桃
B)抽出一張 K
C)抽出一張黑桃 K
D)抽出一張紅心 Q
E)抽出一張黑桃或 K?
S={♣1,♦1,♥1,♠1,♣2,♦2,♥2,♠2....,♣13,♦13,♥13,♠13},#S=52
A) 13/52
B) 4/52
C) 1/52
D) 1/52
E) P(A∪B) - P(A∩B) = ((13+4-1)/52) = 16/52
= 獨立發生的機率 - 同時發生的機率
= P(A)+P(B) - 𝑷(𝑨|𝑩)×𝑷(𝑩) = (13/52)+(4/52)-((4/1)*(4/52))
= (17/52) - (1/52) = 16/52
例 :從五十二張撲克牌隨機抽出二張牌,求以下之機率:
A)出現黑桃
S={♣1,♦1,♥1,♠1,♣2,♦2,♥2,♠2....,♣13,♦13,♥13,♠13},#S=52
A) (13/52)*(39/51)+(39/52)*(13/51)+(13/52)*(12/51)=15/34 = 0.4411
例 :從五十二張撲克牌隨機抽出一張牌放回,重複2次,求以下之機率:
A)出現黑桃
B)出現 K
C)抽中黑桃後抽中紅心的機率
D)抽中黑桃同時又抽中紅心的機率
E)抽中黑桃後抽中K的機率
F)其一個為黑桃後有出現K的機率
S={♣1,♦1,♥1,♠1,♣2,♦2,♥2,♠2....,♣13,♦13,♥13,♠13},#S=52
A) ((13/52)*(13/52))+((13/52)*(39/52))+((39/52)*(13/52)) = 7/16 = 0.4375
B) ((4/52)*(4/52))+((4/52)*(48/52))+((48/52)*(4/52)) = 25/169 = 0.1479
C) 𝑷(𝑨|𝑩) = 𝑷(𝑨) = 13/52
D) 𝑷(𝑨)×𝑷(𝑩) = (13/52)*(13/52)=1/16
E) 𝑷(𝑨|𝑩) = 𝑷(𝑨) = 4/52
F) (1/4)*(4/52)+(1/4)*(48/52)+(3/4)*(4/52)=(1/52)+(12/52)+(3/52)=16/52=4/13
例 :假設生男生女的機率相等,則一個有三個小孩的家庭中,恰僅有一個女孩子的機率?
例 :假設生男生女的機率相等,則一個有兩個小孩的家庭中,條件B[大的女孩是女生],條件A[兩個都是女生],如果大的女孩是女生,兩個都是女生機率為何?
P(A|B)=P(A,B)/P(B)=𝑷(𝑩|𝑨)*P(A)/P(B) = 1*((1/4)/(1/2))=1/2
補充: 排列組合
定義五:互補事件
任一事件 A 的互補事件為「A 不會發生的事件」,以 A’表示。
※𝑷(𝑨′) = 𝟏 − 𝑷(𝑨)
例 :滾動兩個骰子,求兩個骰子出現不同點數的機率?
S= {(1,1),(1,2)..(1,6)..(6,6))},#S=36
𝑷(𝑨’)= {(1,1),(2,2)....(6,6)},#𝑷(𝑨’)=6
𝑷(𝑨)= 1-(6/36)=5/6
條件機率(Conditional Probability)
條件機率 𝑷(𝑨|𝑩) 表在已知 B 事件已發生的條件下,A 事件發生的機率。
-
貝氏定理 (Bays’ Theorem):
wiki
條件機率可改寫成下式
例 :電視台想測量其天氣預報員的能力, 收集了過去的數據,表明以下內容:
1)在晴天,預報員預報為晴天的概率為0.8。
2)在雨天,預報員預報為晴天的概率為0.4
3)晴天的概率是0.6。
預報員預報是晴天,實際為晴天的機率為多少?
{預測為晴天}=P(B),{真正為晴天}=P(A), 𝑷(𝑨|𝑩)=?
𝑷(𝑨|𝑩)=P(A,B)/P(B) = (P(B|A)*P(A)/(P(B|A)*P(A)+P(B|~A)*P(~A))
= 0.8*0.6/(0.8*0.6+0.4*(1-0.6)) = 3/4 = 75%
- 例 :假設每10000人會有1人得癌症,有一台儀器可以檢測出癌症準確率為99%,如果檢測到陽性,實際上得病的機率為多少?
ans:100萬人會100人得癌症,100人中會有99人檢測出陽性,999900健康的人中會有1%就是9999人檢測出陽性(機器誤判),也就是說(99+9999)個檢測為陽性的人中,只有99人 是真正的病的,所以得病機率是99/(9999+99)=0.98%
{檢驗為陽性}=P(B),{得到癌症}=P(A), 𝑷(𝑨|𝑩)=?
𝑷(𝑨|𝑩)=P(A,B)/P(B) = (P(B|A)*P(A)/(P(B|A)*P(A)+P(B|~A)*P(~A))
= 0.99*0.0001/(0.99*0.0001+0.01*0.9999) = 0.98%
單元二.機率分佈 (Probability Distributions)
數值變數的兩種型式:
- 離散型
- 連續型
定義:離散型隨機變數(Discrete Random Variable)
- 離散型隨機變數為計數值的隨機變數。例 :生產線上缺陷製品的數目、人數等。
定義:連續型隨機變數(Continuous Random Variable)
- 連續型隨機變數是連續值的隨機變數。例 :厚度、重量與長度等
● 離散型隨機變數之機率分佈
定義:離散型隨機變數之機率分佈,是以圖或表來表示隨機變數 X 的每一可能值之相關機率。
在傳統的統計學裡,大寫通常表示隨機變數,小寫表示已實現值。
p(x) 的特性為何?
i) 0 ≦ p(x) ≦ 1
ii) ∑𝒂𝒍𝒍 𝒙 𝐩(𝐱) = 1如何找出離散型隨機變數的機率分佈?
1)先建立一表列出離散型隨機變數 X 的所有可能值。
2)再計算出每一 x 之相對機率 p(x)。例 :擲一枚硬幣兩次,令 x 表硬幣人頭朝上(正面)的次數。
a) 求 X 的機率分佈
b) 將 p(x)繪成圖。
S={(++),(+-),(-+),(--)}
-
離散型隨機變數的期望值
設 X 為一離散型随機變數,其機率分配為 P(x),則 X 的期望值為
例 :擲一枚硬幣兩次,令 X 表硬幣人頭朝上(正面)的次數,
a) 求 X 的期望值
-
離散型隨機變數的變異數與標準差
設 X 為一離散隨機變數,其機率分配為 P(x),則
-
例 :擲一枚硬幣兩次,令 X 表硬幣人頭朝上(正面)的次數,
a) 求 x 的變異數
-
例 :我們得到以下之機率分配,
a) 求出現正面的期望次數(E(x)), b) 求x 的變異數與標準差。
- 例 :假設台北市建國南北路高架橋在星期五的尖峰時段,發生交通意外次數為 0,1,2,3 的機率分別為 0.93,0.02,0.03及 0.02,
a) 試找出在星期五尖峰時段發生交通意外的期望次數。
b) 一年的期間內,在星期五尖峰時段發生交通意外的期望次數是多少?
c) 試找出在星期五尖峰時段發生交通意外的變異數與標準差。
第四章.離散型隨機變數(Discrete Random Variables)
離散型機率分佈
-
常用的離散型機率分佈
– 白努力分佈(Bernoulli Probability Distribution)
– 二項分佈(Binomial Probability Distribution)
– 超幾何分佈(Hypergeometric Probability Distribution)
– 波瓦松分佈(Poisson Probability Distribution)
– 負二項分佈(Negative Binomial Probability Distribution)
– 幾何分佈(Geometric Probability Distribution)
二項分佈(Binomial Probability Distribution)
何謂二項實驗?
一個實驗必須滿足以下四個條件,才能稱為二項實驗:
1)此一實驗獨立、重複的試行n次。
2)每一試行均產生兩個結果:成功(Success)或失敗(Failure)。
3)每一試行成功的機率均為 p,失敗的機率為(1-p)或 q。
4)我們對試行n次中,成功 X 次之機率有興趣。-
二項機率分佈
– 在n次獨立的二項實驗試行中,出現x次成功的機率為
• n 表全部的試行數
• x 表在n次試行中成功的次數;
• C(n, x) 表n次試行中取 x 次成功次數的組合數;
• p 表每一試行成功的機率;
• q=1-p 表每一試行失敗的機率。
-
二項隨機變數的平均數與變異數
- 例:某製成品中約有10%為不良品,今任取10個成品檢查,求其中含有
a) 兩個不良品數之機率?
b) 少於兩個不良品數之機率?
(a)8個良品的機率(x=8),n=10(滿足1),良品.不良品(滿足2),p=0.9(滿足3),q=0.1(滿足4)
-------------------------------------------------
(a)2個不良品的機率(x=2),n=10(滿足1),良品.不良品(滿足2),p=0.1(滿足3),q=0.9(滿足4)
(b))少於兩個不良品數之機率(x=1,x=0),n=10(滿足1),良品.不良品(滿足2),p=0.1(滿足3),q=0.9(滿足4)
-
補充:階層計算
-
例:設某考試有20題五選一之單選題,若能答對至少12題,就算通過。假設你每一題均隨機猜答案,請問你通過該考試的機會有多大?ans:0.01%
n-20,試行結果: S='猜對(獨立事件)',F='答錯'
p=P(S)=1/5=0.2,q=P(F)=4/5=0.8
P(通過考試)=P(x≥12)=P(12)+P(13)+.....P(20)
超幾何分佈(Hypergeometric Probability Distribution)
超幾何隨機變數
1.實驗包括從一組N個元素中隨機抽取n個元素,其中一個是N個元素,其中一個是S(用於成功),其中(N-a)是F(用於失敗)。
2.超幾何分布是統計學上一種離散機率分布,它描述了由有限個物件中抽出n個物件, 成功抽出指定種類的物件的個數(不歸還 (without replacement))。
3.超幾何隨機變量X是n個元素的繪製中的S的數量。-
超幾何機率分佈
– 超幾何隨機變數x之機率分佈如下(抽出x個成功元素的機率):
• N = 群體總數(total number of elements)
• a = 群體中成功的元素個數( Number of S’s in the N elements)
• n = 從群體中抽取n個元素( Number of elements drawn)
• x = 抽取n個元素中成功的個數( Number of S’s drawn in the n
elements)
-
超幾何隨機變數X的平均數與變異數
-
例: 雇主從10個應徵者中挑3個,10個中有6個男性、4個女性,設X為女性的人數。
1)給出X的概率函數。
2)找出沒有女性被雇用的概率。
3)在選擇中找出女性人數超過男性的概率。
4)計算E(X)和Var(X)
-
例: 一批100台錄音機包含25台有缺陷的錄音機。
如果隨機選擇其中10個進行檢查,則通過使用找出10個中有2個有缺陷的概率。
1)超幾何分佈的公式;(每次抽出抽到機率不同)
2)二項分佈的公式作為近似值(因為二項分佈每次抽出抽到機率都相同)
如果N>>n,那麼超幾何分佈近似二項分佈。
-
以二項分佈近似超幾何分佈
波瓦松分佈(Poisson Probability Distribution)
波瓦松分佈是用來形容在某一特定時間或面積內稀有事件發生之機率。
波瓦松隨機變數的一些例子:
1)幾週內保險公司收到的要保信數
2)幾分鐘内經過剪票口的旅客數
3)一段短時間內經轉接的電話次數
4)一段時間內地震發生次數-
波瓦松機率分佈
– 假設事件是隨機且彼此獨立的發生,單位時間的平均次數為 λ ,而 x 表示一段時間事件發生的次數,則波瓦松機率密度函數如下:
• μ = 波瓦松分佈事件在某一特定時間(或面積)內發生的平均數
• λ = 單位時間(或面積)內發生的平均數
• t = 特定之時間(或面積)
• e = 2.718281828
-
波瓦松何隨機變數的平均數與變異數
-
利用機率表尋找波瓦松機率 (Cumulative Poisson Probabilities)
以波瓦松分佈近似二項分佈
當n很大且p很小時(優選𝒏𝒑≤𝟕),μ=np,泊松概率分佈為二項概率提供了良好的近似。例:ABC公司生產的平板玻璃窗內的氣泡數目為一波瓦松分佈,平均每平方呎有0.004個氣泡,試求
a) 100平方呎所生產的玻璃窗內無氣泡的機率
b) 100平方呎所生產的玻璃窗內氣泡數不超過1個的機率
x = 氣泡數目,λ = 0.004 1/ft2,t = 100 ft2,λt = 0.004*100 = μ =0.4
- 例: 到達Bay Bank櫃員窗口的顧客數量為泊松分佈,平均每分鐘0.75人。
a)兩位客戶在接下來的6分鐘內到達的概率是多少?
b)使用表格在(a)中找到答案
x = 顧客數目,λ = 0.75 /min,t =6 min,λt = 0.75*6 = 4.5
(x=2) = (x≤2) - (x≤1)
- 例: 假設一個大型食品加工和罐裝廠有20台自動罐裝機在運行。 如果個別裝罐機在給定日期內發生故障的概率為.05,則找出在給定日期2裝罐機失效的概率。
a)使用二項分佈計算確切的概率。 (使用附錄中的表格。)
b)計算泊松近似。
c)比較a)和b)中獲得的答案。
n=20,(正常.失效),x=2,p=0.05,q=0.95,μ=np=20*0.05=1
負二項分佈(Negative Binomial Probability Distribution)
-
何謂負二項實驗?
一個實驗必須滿足下列個條件,才能稱為負二項實驗。
- 某一實驗獨立、重複的試行 y 次
- 每一試行均產生兩結果:成功(Success)或失敗(Failure)
- 每一試行成功的機率均為 p,失敗的機率為(1-p)或 q
- 我們對出現第 r 次成功所經歷的試行次數 y 有興趣
-
負二項機率分佈
– 負二項隨機變數Y之機率分佈如下:
• p = 每一試行成功的機率
• q = 每一試行失敗的機率
• y = y =觀察到rth成功之前的試驗次數。
-
負二項隨機變數的平均數與變異數
- 例 :要將外殼安裝在電機上,生產線裝配商必須使用電動手持工具來固定和擰緊四個螺栓。 假設在任何1秒的時間間隔內設置和擰緊螺栓的概率為p = .8。
如果彙編程序在第一秒內失敗,則在第二個1秒間隔內成功的概率為.8,依此類推。
a)找出Y的概率分佈,即連接完整住房之前的時間長度。
b)求p(6)。
c)求出Y的均值和方差。
幾何分佈(Geometric Probability Distribution)
幾何分佈是負二項分佈的一個特例
幾何分佈是負二項分佈的特例。 它涉及單次成功所需的試驗次數。 因此,幾何分佈是負二項分佈,其中成功次數(r)等於1。-
幾何機率分佈
對於特殊情況r = 1,Y的概率分佈稱為幾何概率分佈。 (Y表示出現第1次成功所經歷的試驗次數)
•p =單次伯努利試驗的成功概率
•q = 1- p
•y =觀察到第一次成功之前的試驗次數
- 例: 保險絲大批量購買並按順序測試,直至觀察到第一個有缺陷的保險絲。 假設該批次包含10%有缺陷的保險絲。
a)第一個有缺陷的保險絲是測試的前五個保險絲之一的概率是多少?
b)求出Y的平均值,方差和標準偏差,即在觀察到第一個有缺陷的保險絲之前測試的保險絲數量。