首頁 / 技術專文 / 廠務系統供應中斷問題解決方法

2020.8

摘要

The Problem Solving Method for Faclity Interruption Event.

廠務系統供應中斷問題解決方法

關鍵詞／廠務中斷、失效模式分析、統計製程⁴、飛安、製程放大
Keywords / Facility Interruption,FMEA,SPC(Statistics Process Control),Flight Safety,Process Scale Up

劉佳芳 ⁴ Chia-Fang Liu 竹科儀控系統課

隨著半導體製程不斷演進與製程複雜、及高科技產品快速地推陳出新，晶圓的價值也持續攀高，及必須快速生產推向市場，一但廠務供應中斷影響生產，或是廠務排放品質異常導致環保問題，除了工廠大範圍運作受影響，公司信譽與形象也會受負面的報導，隨之影響直接客戶的下單意願及終端客戶的信任。本文將說明運轉中廠務依據問題分析的手法找到解決方式、根據品質稽核單位的建議持續改善品質系統、也參考航空業關於空難事故改善的策略、參考10個空難問題解決的方法、最後如何將問題解決進而昇華至有價值的成果；運轉中廠務末端空水汙處理如何因應新製程，確保新處理系統可靠度。根據以上資料及方法結合成一版具備有快速、深化、有價值、與品質日常管理系統相連的台積電廠務中斷管理方法，及確保可靠度的新空水汙製程上線機制。以上方法目標為廠務供應及空水汙處理為為零中斷，廠務系統只有定期的維護保養及預警機制，沒有不預警的中斷。

文字設定：

小

中

大

前言

晶圓生產、及機台運作需要非常穩定及高品質的電力、空調、水處理、及氣體與或化學品供應、及可靠的末端空水污處理，越高階製程所需要的廠務供應品質越高及空水污處理必須不斷地跟著製程變化。根據常態機率分佈，每一個母體都有一定的機率，所以廠務系統複雜組合下也有一定的中斷機率，但在有價值的生產中斷真因分析、持續系統改善、水平展開至各廠區、到全面的自動化品質管理，及應用統計製程方式在時間與金錢有限情況下推出新空水汙處理系統，在這些方法，讓朝向廠務「零」中斷目標。這些工作及方法則於廠務管理策略的One FAC這一塊￫圖1。

圖1、中斷問題解決方法在廠務管理策略的位置

文獻探討

2.1.有價值的問題解決與事半功倍的方法^[1]

解決問題也要有生產力概念，如何提高生產力，就生產力的定義，就是「以多少的輸入(Input)，產生多少的輸出(Output)，若要提高生產力，就必須事半功倍」，如下式一。

式一、生產力公式

生產力=輸出(Output)/輸入(Input)=成果/投入勞力及時間

解決問題套用生產力公式，讓問題的解決成為有價值的工作，有價值的工作需含蓋「議題度」與「解答質」。因此「議題度」是指「每個關係人，該找出問題的答案的必要性有多高」，「解答質」是指「對於目前可以提供明確答案的程度」，而有價值的工作，則越靠近價值矩陣的右上角￫圖2。

圖2、有價值的工作

如何創造有價值的工作，絕對不可走上窮忙路徑：「打從一開始就想走上進行大量極有價值的工作，直接朝向右上方前進」￫圖3。

圖3、走上窮忙路徑圖

要走上事半功倍路徑，則必須先了解議題，並利用既有的技巧來解決問題，接著再來提升技巧，且所有關係人角度來看，都能受益￫圖4。

圖4、事半功倍路徑

從管理廠務中斷到能減少廠務中斷的的議題上，在安宅和人(Kazuto ATAKA)著作上，整理目前適用重點如下 :

接觸第一手資料

很多時候，只要沒有眼見為憑、親身感受，如無法理解實際上第一線(現場)究竟發生什麼事。可能乍看之下毫不相關的事物，但事到了現場，卻是緊密相連，在二手的報告或論文等二手資料中，絕對不可能會提出的死角。

必須反覆問「所以呢?」

反覆問所以呢?可以讓問題越來越明確，問題核心也越來越明白。例如問題是A系統比B系統常出問題，所以A系統較差，必須更新。必須反覆問?第一次回答：A系統當機時間都是每日變更時發生，B系統也是，但B次數較少。必須反覆問?第二次回答：與其他工廠系統比較，A/B系統問題皆是在電腦系統(Server or PC)非控制器系統(Controller)。必須反覆問?第三次回答：需要變更目的及理由還在嗎?必須反覆問?第四次回答：減少不必要變更，搭配資安生級電腦，或是安裝一次性軟體或系統，減少當機，此方法為最高生產力方法。例如最近的安裝AWL(Application White List)vs安裝Window Patch例子。

分解議題並排列故事線

分解議題模具WHERE、WHAT 、WHO，找出次要議題，再將次要議題串成故事線，才能從多面向找出問題。

有規則性

管理廠務中斷到能減少廠務中斷有沒有工通性的關聯、相關性的關聯、群組性的關聯、規則性的關聯，找到其中規則性，才可以以十倍速、二十倍速解決問題，甚至解決問題是可以造就價值。

可以找到明確的答案解決廠務中斷：

到能減少廠務中斷就人、機、料、法、環、測上是不是有明確的解答，且正向價值及效益，如果不是就不是好方向。

擁有多個方法

培養廣泛的經驗與技能，擁有多種表達事物的方法。當一個方法無法順利進行時，可快速切換成其他方法。

2.2.FMEA失效模式分析持續進版

失效模式分析目的是為了在有限時間、及有限資源下，一套將系統、設備或是製程細部分解，將拆解後每個部位，量化的嚴重度S(Severity)，量化後問題的發生機率O(Probability)，量化可以偵檢性D(Detection)。過往是S*O*D得到一個RPN(Risk Per Number)，依據RPN高低來決定工作的優先順序(Priority)。新進版失效模式分析以嚴重度S分級距，再依發生機率O分級距，接下來再依據可偵檢性D來分級距，最後決定問題處理的Priority。新版FMEA SOD￫表1。

表1、新版FMEA S、O、D

依據上述對照表來決定問題的風險等級，但是在執行上，卻發現O的的算法問題，若依據廠務取樣頻率與實際發生問題的感受無法相符，所以廠務的發生機率O會再進版，由整個廠務的設備數量來做為分母，來取代儀表或是儀器的取樣頻率。

2.3.3-Leg-5-Why Analysis

將問題的技術上的發生真因ORC(Occurrence Root Cause)，系統上為何無法偵測ERC(Escape Root Cause)，及管理機制為何會造成的SRC(Systemic Root Cause)，每個分類持續追為因果關係，找到可以著手改善的真因的對策。且持續問不斷向下詢問及探索真因。這類似2.1.所提到的-必須反覆問「所以呢?」

2.4.KT式理性思考法

將問題分解What什麼，什麼物體及什麼偏差；Where何處，物體在何處、及偏差在物體的那裏?When何時，第一次發生偏差時間、何時又看到、整個程序何時看見? Extend程度，有多少物體有偏差?單一偏差大小或嚴重性?一個物體有多少個偏差?趨勢如何?利用以上分類思考方式找住問題真因，與對策。此種找出真因方式很適合目前廠務，因為廠區的數量多，Pool大，較容易以Benchmark方式找到真因及下正確的決策。這類似2.1.所提到的分解議題並排列故事線。

2.5.飛航解密與飛安會^[2]

飛航解密說明10個真實飛安事件且截然不同原因的調查與問題解析，10個真實問題如下，廠務的中斷問題可以依據同類型的事故，快速比對並確認明確的方法￫表2。

表2、飛航解密，10個真實的飛安事件(資料來源：本研究整理)

發生年	航空公司	Cause
1972	美國東方航空	處理無關小事
2004	尖峰航空	紀律廢弛
1995	美國ValuJet Airlines	我以為….
2000	阿拉斯加航空	不當節省成本
1978	太平洋西南航空	應注意、能注意、未注意
2009	法國航空	缺乏精煉基本知識
1985	日航	很久以前的保養錯誤
1979	美國航空	未按照標準程序
1989	聯合航空	設計瑕疵
2001	越洋航空	維修差不多先生

另外飛安會為為獨立機，且調查委員為各領域傑出人員，目的為調查過程不受影響、具備公正性與公信力。

2.6.MIL-S-19500是美國海軍篩選高可靠度軍用元件標準^[3]

MIL-S-19500是美國海軍篩選高可靠度軍用元件標準，tsmc統計技術與品保單位根據MIL-S-19500 LTPD Table制定￫表3，提供於各單位評估系統可靠度而來。

表3、依據MIL-S-19500而制定的可靠度分析表

# of Failures	Reliability=0.60					Reliability=0.90					Reliability=0.95					Reliability=0.99
	LTPD=0.40					LTPD=0.10					LTPD=0.05					LTPD=0.01
	Confidence Level, %					Confidence Level, %					Confidence Level, %					Confidence Level, %
	60	80	90	95	99	60	80	90	95	99	60	80	90	95	99	60	80	90	95	99
	Minimum Sample Size					Minimum Sample Size					Minimum Sample Size					Minimum Sample Size
0	3	5	6	8	12	10	17	24	30	47	19	33	47	60	93	92	161	231	300	461
1	6	8	10	12	17	21	30	39	48	67	41	60	78	95	133	203	300	389	475	664
2	8	11	14	16	22	32	43	54	63	85	63	86	107	126	169	311	428	533	630	841
3	11	14	17	20	26	42	56	67	78	101	84	111	134	156	201	418	552	669	776	1005
4	14	17	20	23	30	53	68	80	92	117	105	135	160	184	233	524	673	800	916	1161
5	16	20	24	27	33	63	80	93	106	132	126	159	186	211	263	630	791	928	1052	1311

註：MIL-S-19500是美國海軍篩選高可靠度軍用元件標準。以上表格為tsmc統計技術與品保單位根據MIL-S-19500 LTPD Table制定，提供於各單位評估系統可靠度而來。Reliability(%)：為系統可靠度；LTPD(%)：群體Defect百分比；Confidence Leve(%)：信心水準。Reliability+LTPD=100%；假設Reliability=60%，Confidence Level=60%，則可靠度可能為36%~60%。

建立方法

本文蒐集廠務歷史生產中斷紀錄分析，使用安宅和人事半功倍思考方式，找出可以立即改善既有品質管理系統與日常值班運作系統相關案例，提升既有系統技巧，而事半功倍的解決問題。

依據3L5W、KT分析問題、與使用事半功倍解決問題方式，歷史中斷紀錄中，13%的廠務中斷可以提升既有警報系統，來預警與預防再發生，其他87%的歷史中斷紀錄，亦經過分析後的解決方式，使用FMEA安排處理問題優先順序。另外亦參考空難事故解決方式來Double Check，方向是否正確。

運轉中廠區也面臨處理新製程，空污水污處理也必須不斷調整需求。隨著生產新製程，也有不同的空水污處理，一但處理不當也會遭受法規的制裁，而使工廠無法生產，並且讓公司形象受損。運轉中廠區，如何由小規模實驗，到大規模運轉(Scale-up)，讓系統能如預期的運展，評估方式則是與台積公司統計發展部，參考美國海軍篩選高可靠度軍用元件標準表而發展的可靠度分析表，來評估系統可靠度。

3.1.強化既有品質管理系統，改善13%廠務中斷

分析5年廠務中斷案例，使用3L5W、KT分析後、及事半功倍的解決方式，與品質管理系統相關且可預警及使用日常管理機制的共5件，佔13%￫表4。

表4、5件品質管理系統相關且稍加改善及可預防再發

NO.	Interruption Case	既有預警機制		提升既有工作方式
NO.	Interruption Case	SPC	變更管理	提升既有工作方式
1	H2O2 System Supply Interruption	建立Pump特徵值		F-Charter
2	Exhaust Fan Fire Alarm	電流管理		Ground Rule
3	電力系統中斷	負載管理		Ground Rule
4	Chemical Interruption		Alarm隔離管理	開門10件事
5	PLC Interruption		Firmware Problem	變更管理

在這期間也訪談過AQE(Advance Quality Engineering)部門，先進工廠內部如何管理。所以根據有麥肯錫的思考武器，事半功倍方法及AQE的建議，廠務將強化既有品質管理系統 : ①將朝向All Chart上SPC。②將系統逼至極致的建立Near Real Time Chart。③參數非萬年一版設定，必須隨Performance Tighten。④建立系統特徵值，數位化使用F-Charter來管理系統。⑤另外使用開門10件事系統，強化日常的變更管理。AQE也建議，除提到系統管理，行為面管理的Ground Rule，⑥所以亦會建立各系統管理的Ground Rule，例如Capacity Ground Rule管理，能避免電力系統過載、控制系統變更無法因應現場變化、氣化及水處理壓降、廢水倒灌等異常。

3.2.有效率、有系統及有依據的改善87%廠務中斷

其他的87%的廠務中斷，因為現在廠務的Pool大及目前廠務的視野觸及世界各地，容易使用3L5W及KT手法由〝is〞or〝is not〞由What、Where、When、Extend， Benchmark出真因，分類其中Component Fail 為38.4%， MO為43.5%，PM Activity為5.1%。

Component Fail Root Cause：問題原因為供應商出廠品管，管路Support架構，材質，Monitor不足，系統特性不同導致操作問題。此方面的問題改善通常無法立即大範圍處理，則可以使用FMEA手法，從S、O、D多方面來降低系統可靠度。
MO Root Cause：需持續改善SOP、訓練、及制定SOP者必須將心比心的身體力行的實際操作SOP。這方面可以善用廠務學院設備，將解決問題方法，使用模擬系統來演練。
PM Activity Root Cause：系統間須再SMP(SigmaMatching Platform)及設備納入FAM執行Asset管理。例如Benchmark其他廠務，是否有其他Golden範例。
找出設備的特徵值與數位化，來預警設備的Perfor-mance、穩定度：例如利用動作時間來制定如閥件、馬達、風車及機械手臂的預警機制，溫度來預警電子元件的穩定度，電流來預警機構的健康度，及影像變化來預估設備的型變。

找到改善方式或是真因，無法立即大規模改善，則可以使用失效模式分析(FMEA)，來制定處理問題優先順序，並安排時間，計畫及預算資源逐步及有把握的處理。

我們也可以再由飛安的處理經驗，執行前來PDCA的Check我的Action前的計畫是否考慮充足，蒐集到的10個例子解決方式，可以供我們參考，而達到廠務真正零中斷的目標￫表5。

表5、10件飛安事件，提供給廠務中斷改善前的參考

3.3.廠務空汙水汙因應新製程，提高Scale up系統可靠度

空水汙處理不當，也會使工廠無法運轉，甚至影響公司的形象，既有系統可靠度，除可由上述兩點來強化系統；另外因應新製程，空水污處理系統的Scale up前的評估，則可以使用以下方式來做評估。假設一個新廢氣處理系統上線前：僅可取樣3次，結果0次Failure，由￫表3可得知，未來放大規模的Failure Rate，推估可靠度為0.6(Reliabil-ity)*0.6(Confidence Level)=36%~60%。由￫表2常態分佈機率可得知望大系統，故最高Fail Rate為64%。Fail Rate涵蓋為0.36σ+4σ=4.36σ。故若要提高及將投入運轉可靠度，除了多次取樣外得到較高系統可靠度外，尚可由提高處理效率用以因應補足測試次數多少的問題^[5]￫表6。

表6、常態分佈機率

根據A廠區廢氣處理系統改善後，僅能取樣3次下，如何進入量產呢?廢氣處理系統為數值望大系統，由Cpk如下算式得知^[4]，當σ等級太小，品質水準太低，我們可以藉由提高A廠區廢氣處理系統的處理效率平均值，來彌補因取樣次數不足而導致推估未來系統可靠度不夠高的問題。

Cpk=(u-LSL)/3σ；u：平均值數，LSL：為系統SPEC A廠區廢氣處理系統改善實例執行及計算如下：

假設目前A廠區廢氣處理系統改善前是90%，且Cpk是1.33，4σ穩定系統。
系統改善後，僅取樣3次，處理廢氣平均值上升，在取樣次數太少情況下，推估最高Fail Rate為64%，雙邊相加為4.36￫圖5￫圖6。

圖5、執行系統改善前

圖6、改善後，取3次Fail Rate估為64%
若初步Release運轉，且初步訂為3σ系統(0.27% Fail Rate)，請問代表系統定可以設為新LSL(new)是多少數值是多少?而3次平均值要為多少?才可以支撐LSL(new)。
假設儀器解析度為1%。假設我們的改善LSL(new)=91% ，且品質水準為3σ則依據￫圖5得知平均值為91%+0.36* (91%-90%)+4*(91%-90%)=94.36%。可得：

當LSL(new)設定為91%時，3次測試的平均值應提高為94.36%。
當LSL(new)設定為92%時，3次測試的平均值應提高為98.72%。

在未來量產情況下，以廠區A廢氣處理系統若是要更高的處理效率，但是在無更多資料可以確定系統穩定度情況下，則必須搭配OCAP(Out of Control Action Plan)的能量來補強。舉例來說廠區A的廢氣處理系統平均值到達94.36%，但是只有36%~60%可靠度，但是可以確定此系統僅為91%穩定系統，此時可以搭配OCAP能量來Cover91%~94.36%的不穩定區間。這方法類似筆者以前苦練跑100公尺競速時，通常教練日常訓練會讓我們跑120公尺，來確定比賽時的水準。

或是可以與其他廠區合作來增加取樣的次數，例如可以找4個廠區一起合作，每一廠區取樣3次，4個廠區共12次，0次Defect，則由￫表1可知，可靠度可以提高至59.4%~99%。則當LSL_(new)提高至91%，則12次測試平均值僅須達到93.76%即可￫圖7。

圖7、增加取樣次數，12次平均值降低至93.76%即可

結果與分析

目前廠務中斷管理已經如同Quality已成為日常工作，並且一旦發生廠務供應中斷，如同飛航調查單位，將啟動各專長人員且含新建廠小組，執行客觀、多角度的Root Cause調查、及有非常大的Pool可以Benchmark找到問題與解法，並且與AQE/CIM/CSQS成為One Team，而他們也給了我們非常多的寶貴意見￫圖8。One Team重點的建議如下，如必須建立管理及行為上的Ground Rule，無死角的All SPC Chart，及也亦要有無死角FC(Facility Constant)System。

圖8、AQE、CIM、FD One Team健檢廠務開門10件事

今年整個2020 FD Quality Task，各廠也將會有一致性管理的管理報表，共通的FD Quality Meeting，會議中包含品質管理/變更管理/中斷管理，無死角與不斷PDCA的管理機制。至於因應運轉中廠務，因應新製程而去研發新排放系統方面，也已經使用MIL-S-19500是美國海軍篩選高可靠度軍用元件標準研製系統可靠度表，在如果推出前的時間或是資源過少，則已在可檢測數量少條件下，如何使用提高實驗系統平均值，來推估系統可靠的平均值，或是在可檢測數量多條件下，用次數來推估系統可靠度，而這方法亦也改善及定義廠務汙泥委外檢測的頻率，目前是每月一次，共12次，可靠度為60% ，在Pool內加上一個相同製程的廠區，且〝0〞Defetc則可靠度上升至81%~90%，以全台積所有相同製程加入Pool內，且皆是〝0〞Defect則可靠度可接近99%。

結論

以上說明的方法整個廠務能達到如航空業一般，不再僅是探究廠務中斷%(廠務中斷次數/waferout)，而是越來越讓人有信心，Wafer Out不斷越多，工廠越蓋越多，且不斷根據這些解決問題方式與經驗傳承，工廠將越來越先進與穩定，並參考航空業解決問題方向，也將產出如航空業般的年報^[6]￫圖9，朝向〝0〞中斷的目標。

圖9、Airbus調查資料：Statistical Analysis of Commercial Aviation Accidents，1958-2018

參考文獻

安宅和人(Kazuto ATAKA)，麥肯錫教我的思考武器：從邏輯思考到真正解決問題，經濟新潮社，2012。
王立楨，飛航解密：美國航太專家關於飛航安全、訓練與管理的大解密，遠流，2017。
U.S. Navy，1959，LTPD(Lot Tolerance Percent Defective) on the Mil-S-19500.
鍾朝嵩，6 Sigma實踐法，先鋒企業管理發展中心，2007。
唐麗英教授，簡單統計學，第四週課程講義(常態機率分布)，國立交通大學。
Statistical Analysis of Commercial Aviation Accidents, 1958–2018, Airbus.

摘要

廠務系統供應中斷問題解決方法

前言