跳到主要內容

10多年Google ML維運經驗,歸納19種ML當機情境要注意


在分析近百起ML當機事故調查後,Google ML維運團隊發現,許多ML系統當機事故,並非歸因於ML本身的問題,而是系統管理所造的錯誤,才有後面當機的結果,例如後端系統過載、跨叢集分派工作的挑戰等。(圖片來源/USENIX)



多年前,Google開始在ML維運中導入SRE的作法,確保系統的服務可靠性,在2年前一場OpML '20技術大會上,Google ML SRE維運負責人Todd Underwood與另一位團隊資深成員Daniel Papasian實際以Google搜尋服務維運為例,公開分享他們從搜尋服務ML當機經驗中,發展出一套因應對策,除了希望改善大型ML系統當機的問題,還要幫助Google建立更有韌性的ML維運策略,甚至還發現到,許多ML當機事故並非真的ML服務出錯,而是系統管理的問題。他們更依據超過10年Google ML維運歸納出19種ML出錯情境的分類,來提供企業借鏡參考。


從老舊ML系統當機經驗中找解方,成了Google ML維運團隊研究新課題


搜尋引擎可說是Google最重要核心服務之一,如今近半數全球人口都在用,平均每秒就要處理高達7萬次使用者搜索查詢的請求,從回答各種生活大小事,到天氣、交通資訊都難不倒它。


早在多年以前,Google就已經在搜尋引擎中加入各種ML演算法,提供更精準的搜尋結果,像是分析搜尋字詞、搜尋比對、網頁實用性排名的演算法等,只要依據使用者查詢字詞、網頁的關聯性和實用性、資訊來源的專業度分析等綜合不同考量,就能從搜尋索引中的上兆個網頁排序裡,決定查詢的搜尋結果,來貼近使用者搜尋查詢。


Google搜尋引擎演算法核心有個大型排名及推薦系統,這套系統經過多年發展,其中有套用了超過15年的老舊ML系統,也是Google使用最久且規模最大一套重要ML系統,但多年下來,這套系統屢屢發生當機的事故,無法用ML模型進行推論,來優化排名及推薦內容,導致服務品質不穩定。這也成了Google所要面對的ML維運大考驗。直到兩年多前,Google ML維運團隊終於找出了對策。


Google最老舊一套大型ML系統,建有上千個模型優化排名及推薦服務


以系統規模來看,這套大型ML系統中,每天同時要執行上千個ML模型,來優化排名及推薦服務,而且不只ML模型數量眾多,模型訓練更是個大問題,只要新資料進來,就必須不斷更新生產環境中的ML模型,光是上千個模型同時訓練,需存取和運算用的模型參數累計就高達1,000億個,才能用於全部模型訓練,加上這套系統歷經多次翻新,系統越來越複雜,就在這樣一個龐大且複雜大型系統架構下,有時只要ML工作流程或環節稍有差錯,就可能造成ML系統當機。


為了探究長期以來造成ML系統當機的原因,Google ML維運團隊兩年前嘗試進行研究,希望能找出適當的解法,避免相似問題再發生。他們分析過往所有ML系統當機事件,要從這些歷史事件中找到問題的根本原因,作為改善ML系統可靠性的參考依據,正好這套ML系統過去10年當機過程的詳細記錄都有完整保留在資料庫中,提供包含後設資料(metadata)在內的完整事後的調查分析,可供團隊研究使用。


這段期間,Google ML維運團隊一共分析近百起ML當機事故,從這些實際發生的事件中,自行分析歸納出19種ML出錯情境要注意。其中,最常見的一種就包辦了15起當機事故。


具體來說,這19種ML出錯情境的分類,有流程調度問題、後端系統過載、預期性資料匯入臨時出錯、CPU 硬體出錯、快取失效問題、模型推論參考的抽樣分配出現改變、組態配置改變導致的混亂、資料結構沒有最佳化、跨叢集分派工作的挑戰、訓練策略執行沒有按照預期順序、過於頻繁調整ML模型超參數、組態變動而沒有妥善試驗或驗證、用戶端對模型的推論做出錯誤臆測、模型推論時間過長、在程式碼中使用不正確assert巨集、誤用標註錯誤的數據來訓練模型、embedding向量空間維度不匹配、測試任務與正式環境的溝通不正確,以及無法調度必要的頻寬、記憶體、CPU資源。


基本上,從系統當機歸納出的原因中,可以看見有些出錯原因較單純,像是快取失效問題,還有一些是不易察覺的錯誤,如跨叢集分派工作的問題。另外有些錯誤則是與ML相關,例如embedding向量空間維度不匹配就是屬於這一類,甚至在複雜大型分散式系統環境下,也有可能因為使用的CPU晶片出錯,導致ML系統當機的情況出現。


當完成近百起ML當機事故調查,歸類成19種ML出錯情境後,還進一步以分組方式加以畫分,並分成兩個組別來進行比較,一組是純ML與非純ML工作流程兩者的比較,另一組則是單一系統或分散式系統間的比較。例如系統調度出錯造成當機,就是屬於分散式系統管理的問題。


維運團隊經過比較後發現,許多ML系統當機事故和其出錯原因,並非歸因於ML本身的問題,大多是系統管理所造的錯誤,才有後面當機的結果。從系統架構角度來看,他們則發現,若是ML系統有採取分散式架構設計,發生當機事故比例會比單一系統時更高,甚至多達6成出錯都跟分散式ML系統處理有關,這也可以用來說明,ML當機和其系統採用單一或分散式架構,彼此之間有一定的關聯性。


要維運一套大型ML系統,不能只懂ML,分散式系統管理更重要


從這些研究結果,Google ML維運團隊也找到一些方法,來改善ML系統可靠性,像是要求對ML工作流程進行全面監控及追蹤,包含監測資料吞吐量、ML系統執行率,以及結合各種診斷測試等。對於不同源頭的訓練數據、ML模型及檔案,也要建立系統化版本控管機制,以便發生當機事故時,團隊馬上能修正。重新訓練的ML模型部署前,也要確保能正常執行沒問題才能放行,避免影響到整體系統效能與利用率。


正因為許多當機事件都與分散式ML系統密切關聯,也讓Google ML維運團隊更加意識到,一套大型系統中,從建置到維運管理,除了必須有專門團隊來負責,對於維運團隊組成,不能只有ML工程師,還必須要有分散式系統的工程師加入,甚至人數比例要比ML工程師都還高,來負責大型系統測試和診斷,透過這樣的系統管理方式,才能提升系統的可靠性,甚至幫助Google建立起更有韌性的ML維運作法。


儘管,Google ML維運經驗不一定適用每一家企業,但從這家公司多年ML維運和思考策略,也能提供企業借鏡來參考。Todd Underwood就建議,企業可以根據歷史ML當機事件,按影響程度、對公司衝擊、事故持續時間和原因來進行分類,建立自己一套ML維運作法,除了經由分析找出根本原因,每年可以定期重新審視,持續改進內部ML工作流程。


 Google ML維運經驗:19種ML出錯情境 


1. 流程調度問題

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。


市面十大品牌封口機!該如何選購?

市面上的封口機一般分為兩種:一種是要預熱的,一種是不用預熱的(插電後即可直接使用。)而瞬熱式就是不用預熱的封口機



飲水機選購技巧大公開!!

機器上方放桶裝水,與桶裝水配套使用。桶裝飲水機在20世紀中期之前就出現了,這種飲水機被設計為機身頂部的一個專門的連接器倒放置水桶



使用真空封口機常見問題?

封口機用途廣泛,各產業袋類包裝,食品包裝、豆乾、喜餅、咖啡豆、咖啡粉掛耳包、鳳梨酥等等



2. 後端系統過載


3. 預期性資料匯入臨時出錯


4. CPU硬體出錯


5. 快取失效問題


6. 模型推論參考的抽樣分配出現改變


7. 組態配置改變導致的混亂


8. 資料結構沒有最佳化


9. 跨叢集分派工作的挑戰


10. 訓練策略執行沒有按照預期順序


11. 過於頻繁調整ML模型超參數


12. 組態變動而沒有妥善試驗或驗證


13. 用戶端對模型的推論做出錯誤臆測


14. 模型推論時間過長


15. 在程式碼中使用不正確assert巨集


16. 誤用標註錯誤的數據來訓練模型


17. 向量空間維度不匹配


18. 測試任務與正式環境的溝通不正確


19. 無法調度必要的頻寬、記憶體、CPU資源


資料來源:Google,iThome整理,2022年3月

https://www.ithome.com.tw/news/149859


飲水機皆有含淨水功能嗎?

採e化保養管理,用戶資料建檔完整售後服務,服務區域內深受各大機關團體、百大企業等等知名企業採用


信泰電機生產製作:鋁殼電阻、繞線電阻、剎車電阻、煞車電阻


有廠商專門客製化橡膠製品嗎?

橡膠,或稱樹奶,是一種有彈性的聚合物。橡膠可以從一些植物的樹汁中取得,也可以是人造的,兩者皆有相當多的應用及產品,例如輪胎、墊圈等(可與乳膠製成橡皮筋),逐漸成為重要經濟作物。橡膠的種植主要集中在東南亞地區,如泰國、馬來西亞、印度尼西亞。



好的茗茶,更需要密封性高的茶葉罐,才能留住香氣!

茶葉罐是用來存放茶葉的容器,有錫製、鐵製、陶瓷、玻璃、紙製的材質。






Orignal From: 10多年Google ML維運經驗,歸納19種ML當機情境要注意

留言

這個網誌中的熱門文章

《商情》期金續疲;原油回跌;期銅觸六周新低;小麥創兩個月新低

時報-商情早報 1.美元走強 紐約期金續疲。 2.LME:08/14期銅收8291.50美元/公噸,跌3.00美元。 3.NYMEX:9月輕質原油跌0.68美元,每桶為82.51美元。 4.西德州原油下跌0.67美元,每桶為82.50美元。 5.08/14BDI運費指數為1135.00。 6.SICOM:天然橡膠9月期貨RSS3下跌0.50美分。 7.NYCE:10月棉花跌1.64美分,每磅為87.65美分。 8.CBOT:8月黃豆粉漲25.40美元,每公噸為462.30美元。 9.08/14TRJ-CRB下跌1.64,為278.10。 10.SGX:62%鐵礦石報每公噸103.47美元,跌1.40美元。 感應門神 ,總是為了廚餘煩惱嗎?雅高環保提供最適用的 廚餘機 ,滿足多樣需求。把原有 貨櫃屋改裝 成任何尺寸大小及多咖貨櫃合併。 空壓機 這裡買最划算!優質快速服務、空壓機合理價格。精緻包裝 茶葉罐 ,也能撐場面! 示波器 探測執行效能最佳化的8大秘訣;(全省) 堆高機 租賃保養一覽表,由簡易堆高機修改而成,無需現場施工,交機即可使用!哪裡買的到省力省空間,方便攜帶的 購物推車 。客製專屬 滑鼠墊 、可愛造型 L夾 、 L型資料夾 、透明證件套、手提袋,專業印刷設計廠商! 二手貨櫃屋 已普遍被應用於展場活動、居家住宅、工業商辦上。掌握產品行銷策略,帶你認識商品 包裝設計 基本要素。各種精緻鐵盒包裝 茶葉罐 、禮品罐,增加商品收藏及實用性。 Peel Force Tester ,協助客戶導入半導體設備、 工業型機械手臂 以提高產能及加工技術,工業型 無線充電裝置 、精密加工元件; 噴霧式乾燥機 賣場 商品防竊 是怎麼做的 商情綜述: 1.貴金期貨-美元走強,周一紐約期金續疲;因美元指數(DXY)上漲0.3%,觸及一個月最高,削弱投資人以美元計價的黃金購買吸引力,以及美國10年期公債殖利率上升,令金價觸及一個月最低;周一(08/14)收盤報價,12月黃金跌2.60美元,報每盎司1944.00美元;9月白銀跌0.03美元;10月白金跌7.80美元;9月鈀金跌36.20美元。(王思涵整理) 2.LME基本金屬-中國房地產債務危機,期銅觸六周新低;...

澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

摘錄自2020年1月10日星島日報報導 澳洲山火持續,有專家估計10億隻野生動物喪生於大火,日前一名19歲少年和他的堂兄弟兩人自發展開無尾熊救援行動,一群受傷的無尾熊瑟縮在他們的車內,令人既悲傷又感動。 澳洲19歲少年米卡(Micah)和18歲的卡勒布(Caleb)是堂兄弟,在當地被稱為「無私的少年英雄」,因為他們在災害最嚴重的地區之一袋鼠島(Kangaroo Island)附近努力營救被大火圍困的無尾熊。 兄弟二人計劃暫時照顧這些受傷的無尾熊,等到一切都安全了才會將牠們放歸自然。同時,他們也因為英雄般的舉動廣受網民讚揚,同時引發更多人參與救援行動。 本站聲明:網站內容來源於https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】 ※ 牙冠增長術 治療費用   ※ 過40歲拉警報?何時該看「 不孕症 」門診? ※微感冒得吃藥? 紫錐花   紫錐菊 打擊感冒效果增六成 ※牙齒矯正通常 隱適美費用 要多少? ※早期發現早期治療!一張表讓你看懂 癌症檢測 、 性病篩檢 流程! ※ 菜花皰疹 病源不同性行為非唯一感染途徑 Orignal From: 澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

歐盟擴大懲俄油 貿易新亂流

繼針對俄羅斯原油設限的制裁措施之後,歐美與G7盟國5日將擴及俄國精煉石油產品,包括柴油和航空燃料。能源分析師擔心,歐盟升高俄油制裁,恐徒增油市及全球貿易流混亂。 歐美同意將俄國柴油等石油產品價格,限制在每桶100美元,至於俄產燃料油或工業潤滑油,價格上限為45美元,引發油市供給混亂加劇的疑慮。 為避免克里姆林宮從石油收入取得戰爭財源,歐盟和七國集團(G7)對俄國海運原油頒禁運令後,去年12月5日加碼對俄國石油設每桶60美元的價格上限。而2月5日起,此俄油限價的制裁措施,將從原油擴大到精煉石油產品。 但政治風險諮詢公司歐亞集團(Eurasia Group)分析師警告,歐盟制裁俄國精煉油品帶來的破壞性衝擊,恐怕比之前制裁俄國進口原油還大。 總是為了廚餘煩惱嗎?雅高環保提供最適用的 廚餘機 ,滿足多樣需求。把原有 貨櫃屋改裝 成任何尺寸大小及多咖貨櫃合併。 空壓機 這裡買最划算!優質快速服務、空壓機合理價格。精緻包裝 茶葉罐 ,也能撐場面! 示波器 探測執行效能最佳化的8大秘訣; 臭氧機 的滅菌效果如何?(全省) 堆高機 租賃保養一覽表,由簡易堆高機修改而成,無需現場施工,交機即可使用!哪裡買的到省力省空間,方便攜帶的 購物推車 。客製專屬 滑鼠墊 、可愛造型 L夾 、 L型資料夾 、透明證件套、手提袋,專業印刷設計廠商! 二手貨櫃屋 已普遍被應用於展場活動、居家住宅、工業商辦上。掌握產品行銷策略,帶你認識商品 包裝設計 基本要素。各種精緻鐵盒包裝 茶葉罐 、禮品罐,增加商品收藏及實用性。 Peel Force Tester ,協助客戶導入半導體設備、 工業型機械手臂 以提高產能及加工技術,工業型 無線充電裝置 、精密加工元件; 噴霧式乾燥機 英國經濟學人智庫(EIU)分析師謝伍德(Matthew Sherwood)指出,歐盟市場還在等著替代油源之際,最新俄油制裁措施一出,料會引發混亂,石油產品背負上漲壓力將更普遍。 謝伍德還提到,EIU團隊預期全球貿易會改變流向,俄國石油將多輸往中國、印度、中東及非洲,歐洲則大舉從印度、中國、中東、美國進口原油,但可能因此增加運輸成本。能源分析師老早對G7設俄油價格上限的效果存疑,莫斯科當局大可將原本要海運到歐洲的原油,轉而出口到中國、印度、土耳其。 歐盟呼籲中印...