Normality Test (樣本分佈的常態檢定) - The first step for calculating Process Capability－cmocharles的部落格

客戶時常會問的一句, 請告訴我你們工廠可以做出"我要"的產品嗎? 這句話的根本意義, 是產品的重要特性量測值與客戶規格的吻合度.

這時候, 大家一定會拿出一個數字, Process Capability Index, 製程能力指數.

我們過去都花了太多的時間在談1.33 or 1.67, 也都知道這個數字相對於良率的意義. 但我們疏於確認抽樣所得的樣本, 其母體分布是否屬於常態分布.

當樣本的母體分布不屬於常態時, 這個數字也就失去意義了.

因此, 本篇文章討論的重點是, 如何確認抽樣所得的樣本數據分佈呈常態分佈.

在計算Process Capability前所需要做的第一步, 拿出手頭上的統計軟體, for example: Jump, Minitab,...etc. 但如果和我一樣都在預算有限的公司, 請打開你的Microsoft Office Excel or Open Office Calc!!

Step 1. 使用一般作圖原則畫出樣本數據的直方圖:

在分組的方法上稍有不同. 過去分組所應用的公式是, c=1+3.322*log(n), "c" 表示要分成幾組, "n" 表示抽樣所得的樣本數; 組距的計算方式是(Max-Min)/c. 建議的分組方式很簡單, 直接使用樣本標準差當成組距即可. 以下表示兩種不同的分組方式所得的樣本數據值方圖 (以背光模組中央輝度量測值為例 BLU Central Brightness).

由上述二圖可以看出差異, 使用樣本標準差作為直方圖的分組組距能敘述樣本數據的分布, 有助於對分布的常態性檢定(Normality Test).

Step 2. 計算理論分布:

在假設樣本數據成常態分配的前提下, 計算這些數據的平均值及標準差, 並用標準常態分配(Z Value)反查在各個分組區間內的分配機率值. 分配機率值乘以樣本數, 所代表的意義是該樣本數據的分布呈常態分布的狀態下, 在各分組區間內應有的出現次數. 此分布稱為"理論分佈次數"

請參閱下圖, 分別以"一般組距運算原則" 及 "樣本標準差" 此二種不同的分組方式所得到的理論分佈次數.

以相同的道理, 倘若我假設抽樣所得的樣本來自於Weibull分佈, 以相同當方法反查Weibull 在各分組區間的理論機率乘以樣本數, 求得Weibull理論分佈次數.

由以上二圖可知, 不同的分組方式可得到不同的理論分佈次數. 在假設得到證實的狀態下, 以樣本標準差為組距所得的次數分布圖更能描述抽樣母體的分布狀態.

在此步驟中需要注意的事項是, 即便樣本分佈次數(以下開始稱為實際分佈次數)的直方圖理與論分佈次數相近, 在未使用檢定方法確認之前, 不能貿然的論斷實際分佈等同於理論分佈.

Step 3. 使用適合度檢定 (Good of Fit Test) 檢定抽樣所得的數據是否呈常態分佈:

自實際的工作狀態下, 其實並無法得知目前的製程分布呈現哪一種狀態, 此時無母數統計是一相當重要的運用工具, 日後會一一逐項講解. 在母體分布的推估上, 適合度檢定是一相當好用的工具, 分為卡方(Chi Square) 以及 Kolmogorov-Smirnov 此二種檢定方法. 這篇文章中使用卡方檢定法.

簡述卡方檢定法, 各組的實際分配次數(Oi)及理論分配次數(Ei)的偏差平方和除以理論分配次數, (Oi-Ei)^2/Ei並加總起來, 此種數值的母體分佈即為卡方分佈 (Chi-Square Distribution). 在實際運算過程中, 若某一組的實際分配次數小於1時, 則需與其他分組合併計算.

下圖是實際分佈次數與理論分佈次數的比較與檢定結果. 卡方檢定的過程中有意差(意即Type I Error, Alpha)水準的高低及自由度(Degree of Freedom)的大小, 會影響檢定的結果. 有意差水準一般設定為5%; 自由度的大小與分組的組數, 及被估計的分佈形態之母體表徵數的個數有關. 下圖的演算實例而言, 被估計的分佈形態是常態分配, 母體的表徵數為平均值及標準差. 在平均值與標準差均未知的狀態下, 以分組的組數減去2再減去1(樣本數據總和除以樣本個數等於樣本平均值, 此為已被限定的限制式), 即為下圖卡方檢定的自由度.