課程連結:
台灣交通大學 統計學(一) Statistics I 唐麗英老師
[統計學筆記及整理]
第七章 信賴區間估計(Estimation Using Confidence Intervals)
點估計(Point Estimators and their Properties)
•回想:統計的目的
根據樣本中包含的信息推斷群體。
Two Types of Estimation(兩種估計類型):
1)Point Estimation (點估計)
2)Interval Estimation (區間估計)What is a Point Estimation (點估計)
Def:填充參數的點估計器是一個規則(或公式),它告訴您如何根據樣本數據計算單個數字。 結果數稱為參數的點估計。-
例:以下總體參數的點估計值是多少?
如何評估點估計的優點
– Unbiasedness (不偏性)
– Efficiency (有效性)
– Consistency (一致性)
– Sufficiency (充份性)What is an Unbiased Estimator (不偏估計量)
如果其採樣分佈的均值等於參數,則稱群體參數的估計量是unbiased不偏的。 否則估計是有biased偏頗的。也就是說,估計是無偏的,如果
-
例: and and 是不偏的。
-
• What is an Efficient Estimator (有效估計量)?
•例1:
工業工程師打算使用150個隨機樣本的平均值來估算大型工業中裝配線工人的平均機械能力。 如果根據經驗,工程師可以假設這些數據的σ= 6.2,他能以99%的可信度斷言估計誤差的最大值?
- 例2:在錫的熔點的六次測定中,化學家得到的平均值為232.26攝氏度,標準偏差為0.14度。如果他用這個平均值作為錫的實際熔點,那麼化學家可以對最大誤差有98%的置信度?
估計群體之平均數(Estimation of a Population Mean)
-
區間估計
Def:填充參數的區間估計是一條規則,它告訴您如何根據樣本數據計算兩個數字。
- 信賴係數
Def:信賴區間包含估計參數的概率稱為信賴係數。
- 例1:燈泡工廠的質量控制經理需要估算大批燈泡的平均壽命。 已知過程標準偏差為100小時。 50個燈泡的隨機樣本表明樣本平均壽命為350小時。 找出此貨件中燈泡真實平均壽命的95%置信區間估計值。解釋您的結果。
-
例3 : 選擇了一家公司的25名員工,並記錄了每個員工的年薪。 發現該樣品的平均值和標準偏差分別為7750和900。 構建95%C.I。 為群體平均工資。 解釋你的結果。
-
例4:本世紀初汽油價格大幅上漲。假設最近的一項研究是使用具有相同年經驗的卡車司機在同一條高速公路上測試特定型號的24輛卡車。
如果這24輛卡車的燃油消耗量(每加侖英里數)如下,則估算該卡車型號的群體平均燃油消耗率為90%。
- 解釋群體平均值的信賴區間
我們對例1的322.3小時和377.7小時的信心來自於我們對產生它們的統計程序的信心。
該程序給出了隨機變量L和R,它們有95%的機率包含真實但未知的平均值μ; 他們的特定值是否包含μ我們無法知道。
“我們可以感受到95%自信”的原因如下:如果我們從樣本群體中取出100個不同的樣本併計算每個樣本的置信限,那麼我們預計這100個間隔中約有95個會包含 μ的真值,而5不包含μ的真值。
由於我們通常只有一個樣本,因此只有一個置信區間,我們不知道我們的區間是95還是其中之一。在這個意義上,我們有95%的自信。
在抽樣活動的結果中顯示了95%置信度的含義。 統計學生從平均μ和標準差σ= 1.66的正常人群中取100個不同的隨機樣本,大小n = 10。 然後計算100個樣本均值,X和相應的置信區間,結果如下圖所示(見下頁)。
平均μ包含在100個間隔中的94個中,如圖所示。
該結果符合我們的預期,即我們的100個間隔中的約95個應該包含平均μ。
估計群體之比率值(Estimation of a Population Proportion)
- 例1:在400個工業事故的隨機樣本中,發現231個至少部分是由於不安全的工作條件。 構造相應真實比例的99%置信區間。 解釋你的結果。
估計群體之變異數(Estimation of a Population Variance)
- 例1:在執行艱苦的任務時,25名工作人員的脈搏率平均每分鐘增加18.4次,每分鐘標準差為4.9次。 找到相應總體標準差的95%置信區間
有限群體的置信區間(Confidence Interval for a Finite Population)
- 例1:在一個特定的城市,去年有1,118個抵押貸款。 其中60個隨機樣本的平均金額為87,300美元,標準差為19,200美元。 估算去年在該市融資的所有抵押貸款的平均金額,並找出95%的置信區間。
- 例3:假設美國有1,395所大學。 從400所這些學校的簡單隨機樣本中發現,過去一年中商業統計課程的樣本平均入學人數為320.8名學生,樣本標準差為149.7名學生。 估算前一年參加商業統計課程的學生總數,並找出99%的置信區間。
- 例4:通過對我們群體中1,395所大學中的400所的簡單隨機抽樣,發現商業統計數據是141個抽樣大學中的兩個學期課程。 估算該課程為兩個學期的所有大學的比例,並找出90%的置信區間。
第八章 信賴區間估計: 兩群體參數差異之估計(Confidence Intervals Estimation: Further Topics)
選擇樣本大小以估計參數(Choosing the Sample Size for Estimating μ and P)
1)選擇樣本大小以估計μ校正到具有概率的E單位(1-α)
其中n是從總體中採樣的觀測數量,是總體方差。
注意:通常必須近似。
- 例1:通過工業過程生產的金屬棒的長度通常以1.8毫米(mm)的標準偏差分佈。 基於來自該群體的9個觀察的隨機樣本,99%置信區間194.65 <μ<197.75群體平均長度。
假設生產經理認為間隔對於實際使用來說太寬,而是需要99%的置信區間,在樣本均值的每一側延伸不超過0.5毫米。 實現這樣的間隔需要多大的樣本?
1)選擇用於估計P的樣本大小正確到具有概率的E單位(1-α)
其中P是群體比例; n是從總體中採樣的觀測數量。 注意:P通常設置為0.5
- 例2:計算出在考試候選人時,將標準化考試成績視為非常重要的研究生招生人員比例的置信區間。 基於142次觀察,獲得的間隔如下:0.533 <P <0.693
相反,假設必須確保群體比例的95%置信區間在樣本比例的每一側不超過0.06。 必須攜帶多大的樣本?
為了實現這種更窄的置信區間,需要至少267個樣本觀測值(比原始142個觀測值顯著增加)。
兩相依(或配對)母體平均數差之估計(Estimation of the Difference Between Two Population Means: Dependent or Paired Samples)
- 例1:進行了一項醫學研究,以比較兩種特定藥物在降低膽固醇水平方面的有效性差異(膽固醇指數)。研究小組使用配對樣本方法來控制減少的變化,這可能是由於藥物本身以外的其他因素造成的。一對中的每個成員都與年齡,體重,生活方式和其他相關因素相匹配。藥物X給予每對中隨機選擇的一個人,藥物Y給予該對中的另一個人。在指定的時間後,再次測量每個人的膽固醇水平。
假設從大量參與者中選擇了8對已知膽固醇問題的患者的隨機樣本。
表格給出了每個人的膽固醇水平降低的點數,以及每對的差異。以99%置信水平估計兩種藥物X和Y對降低膽固醇的有效性的平均差異。
由於置信區間包含零值,因此無法確定任何一種藥物是否更有效降低一個人的膽固醇水平。
- 例2:無數的網站,學習指南,軟件,在線互動課程,書籍和課程有望增加學生的詞彙量,提高學生的數學技能,並教授考試策略,以提高SAT成績,這應該有所幫助 提高(改善)大學錄取的機會,或增加獲得某些獎學金的可能性。
類似地,存在相同類型的產品以改善GMAT分數,LSAT分數,MCAT分數和其他此類標準化測試。 一家公司隨機抽取了140名客戶,並收集了每個人的SAT分數數據,然後參加了在線課程和每個人參加該課程後的SAT分數。 我們獲得以下信息:
and
估算在線課程之前和之後相同SAT分數的差異。 使用置信區間估計。
由於置信區間不包含零,我們可以得出結論,在線課程可以顯著提高SAT分數。
兩獨立母體平均數差之估計(Estimation of the Difference Between Two Population Means: Independent Samples)
- 例1:會計教授和信息系統(IS)教授的獨立隨機樣本被要求提供他們為每節課準備所花費的小時數。 321名IS教授的樣本平均準備時間為3.01小時,94名會計教授的樣本平均為2.88小時。
從類似的過去研究中,IS教授的群體標準偏差假設為1.09,同樣地,會計教授的群體標準差為1.01。 用μ𝑥表示IS教授的群體平均值,用μ𝑦表示會計教授的群體平均值,找到(μ𝑥 - μ𝑦)的95%置信區間。
該間隔包括零,表明沒有證據表明兩種群體的平均值不同。
- 例2:A市居民抱怨說,當地政府收取的城市垃圾收費高於B市收費。市政局的垃圾管理員同意研究這個問題,並表示投訴是合理的。 在過去三個月中,獲得了居民為兩個城市中每個城市的生活垃圾清除所支付的金額的獨立隨機樣本。 這些金額如下:
A市的垃圾收集成本高於B市,差價從25.84美元或52.76美元不等。
-
例3:Stryker會計師事務所隨機抽樣了Amalgamated Distributors東西辦公室的應付賬款。從這兩個獨立樣本中,公司想要估計應付賬款的群體平均值之間的差異。 獲得的樣本統計數據如下:
我們不假設未知群體差異相等。估算兩個辦事處應付賬款平均值之間的差額。 使用95%的置信水平。
兩獨立母體比率差之估計(Estimation of the Difference Between Two Population Proportions)
- 例1:在總統選舉年期間,會做出許多預測,以確定選民如何看待特定的候選人。 在隨機抽樣的120名登記選民在“A”區中,107表示他們支持有關候選人。
在一個獨立的隨機樣本中,有141名登記選民在“B”區,只有73名表示支持同一候選人。 如果相應的群體比例表示為和,則找到群體差異的95%置信區間。
零在這個區間之外的事實表明,支持這位總統候選人的區域A和區域B的登記選民的群體比例存在差異。 在跑步中,估計差異僅為27.4%或高達47.3%。