跳到主要內容

10多年Google ML維運經驗,歸納19種ML當機情境要注意


在分析近百起ML當機事故調查後,Google ML維運團隊發現,許多ML系統當機事故,並非歸因於ML本身的問題,而是系統管理所造的錯誤,才有後面當機的結果,例如後端系統過載、跨叢集分派工作的挑戰等。(圖片來源/USENIX)



多年前,Google開始在ML維運中導入SRE的作法,確保系統的服務可靠性,在2年前一場OpML '20技術大會上,Google ML SRE維運負責人Todd Underwood與另一位團隊資深成員Daniel Papasian實際以Google搜尋服務維運為例,公開分享他們從搜尋服務ML當機經驗中,發展出一套因應對策,除了希望改善大型ML系統當機的問題,還要幫助Google建立更有韌性的ML維運策略,甚至還發現到,許多ML當機事故並非真的ML服務出錯,而是系統管理的問題。他們更依據超過10年Google ML維運歸納出19種ML出錯情境的分類,來提供企業借鏡參考。


從老舊ML系統當機經驗中找解方,成了Google ML維運團隊研究新課題


搜尋引擎可說是Google最重要核心服務之一,如今近半數全球人口都在用,平均每秒就要處理高達7萬次使用者搜索查詢的請求,從回答各種生活大小事,到天氣、交通資訊都難不倒它。


早在多年以前,Google就已經在搜尋引擎中加入各種ML演算法,提供更精準的搜尋結果,像是分析搜尋字詞、搜尋比對、網頁實用性排名的演算法等,只要依據使用者查詢字詞、網頁的關聯性和實用性、資訊來源的專業度分析等綜合不同考量,就能從搜尋索引中的上兆個網頁排序裡,決定查詢的搜尋結果,來貼近使用者搜尋查詢。


Google搜尋引擎演算法核心有個大型排名及推薦系統,這套系統經過多年發展,其中有套用了超過15年的老舊ML系統,也是Google使用最久且規模最大一套重要ML系統,但多年下來,這套系統屢屢發生當機的事故,無法用ML模型進行推論,來優化排名及推薦內容,導致服務品質不穩定。這也成了Google所要面對的ML維運大考驗。直到兩年多前,Google ML維運團隊終於找出了對策。


Google最老舊一套大型ML系統,建有上千個模型優化排名及推薦服務


以系統規模來看,這套大型ML系統中,每天同時要執行上千個ML模型,來優化排名及推薦服務,而且不只ML模型數量眾多,模型訓練更是個大問題,只要新資料進來,就必須不斷更新生產環境中的ML模型,光是上千個模型同時訓練,需存取和運算用的模型參數累計就高達1,000億個,才能用於全部模型訓練,加上這套系統歷經多次翻新,系統越來越複雜,就在這樣一個龐大且複雜大型系統架構下,有時只要ML工作流程或環節稍有差錯,就可能造成ML系統當機。


為了探究長期以來造成ML系統當機的原因,Google ML維運團隊兩年前嘗試進行研究,希望能找出適當的解法,避免相似問題再發生。他們分析過往所有ML系統當機事件,要從這些歷史事件中找到問題的根本原因,作為改善ML系統可靠性的參考依據,正好這套ML系統過去10年當機過程的詳細記錄都有完整保留在資料庫中,提供包含後設資料(metadata)在內的完整事後的調查分析,可供團隊研究使用。


這段期間,Google ML維運團隊一共分析近百起ML當機事故,從這些實際發生的事件中,自行分析歸納出19種ML出錯情境要注意。其中,最常見的一種就包辦了15起當機事故。


具體來說,這19種ML出錯情境的分類,有流程調度問題、後端系統過載、預期性資料匯入臨時出錯、CPU 硬體出錯、快取失效問題、模型推論參考的抽樣分配出現改變、組態配置改變導致的混亂、資料結構沒有最佳化、跨叢集分派工作的挑戰、訓練策略執行沒有按照預期順序、過於頻繁調整ML模型超參數、組態變動而沒有妥善試驗或驗證、用戶端對模型的推論做出錯誤臆測、模型推論時間過長、在程式碼中使用不正確assert巨集、誤用標註錯誤的數據來訓練模型、embedding向量空間維度不匹配、測試任務與正式環境的溝通不正確,以及無法調度必要的頻寬、記憶體、CPU資源。


基本上,從系統當機歸納出的原因中,可以看見有些出錯原因較單純,像是快取失效問題,還有一些是不易察覺的錯誤,如跨叢集分派工作的問題。另外有些錯誤則是與ML相關,例如embedding向量空間維度不匹配就是屬於這一類,甚至在複雜大型分散式系統環境下,也有可能因為使用的CPU晶片出錯,導致ML系統當機的情況出現。


當完成近百起ML當機事故調查,歸類成19種ML出錯情境後,還進一步以分組方式加以畫分,並分成兩個組別來進行比較,一組是純ML與非純ML工作流程兩者的比較,另一組則是單一系統或分散式系統間的比較。例如系統調度出錯造成當機,就是屬於分散式系統管理的問題。


維運團隊經過比較後發現,許多ML系統當機事故和其出錯原因,並非歸因於ML本身的問題,大多是系統管理所造的錯誤,才有後面當機的結果。從系統架構角度來看,他們則發現,若是ML系統有採取分散式架構設計,發生當機事故比例會比單一系統時更高,甚至多達6成出錯都跟分散式ML系統處理有關,這也可以用來說明,ML當機和其系統採用單一或分散式架構,彼此之間有一定的關聯性。


要維運一套大型ML系統,不能只懂ML,分散式系統管理更重要


從這些研究結果,Google ML維運團隊也找到一些方法,來改善ML系統可靠性,像是要求對ML工作流程進行全面監控及追蹤,包含監測資料吞吐量、ML系統執行率,以及結合各種診斷測試等。對於不同源頭的訓練數據、ML模型及檔案,也要建立系統化版本控管機制,以便發生當機事故時,團隊馬上能修正。重新訓練的ML模型部署前,也要確保能正常執行沒問題才能放行,避免影響到整體系統效能與利用率。


正因為許多當機事件都與分散式ML系統密切關聯,也讓Google ML維運團隊更加意識到,一套大型系統中,從建置到維運管理,除了必須有專門團隊來負責,對於維運團隊組成,不能只有ML工程師,還必須要有分散式系統的工程師加入,甚至人數比例要比ML工程師都還高,來負責大型系統測試和診斷,透過這樣的系統管理方式,才能提升系統的可靠性,甚至幫助Google建立起更有韌性的ML維運作法。


儘管,Google ML維運經驗不一定適用每一家企業,但從這家公司多年ML維運和思考策略,也能提供企業借鏡來參考。Todd Underwood就建議,企業可以根據歷史ML當機事件,按影響程度、對公司衝擊、事故持續時間和原因來進行分類,建立自己一套ML維運作法,除了經由分析找出根本原因,每年可以定期重新審視,持續改進內部ML工作流程。


 Google ML維運經驗:19種ML出錯情境 


1. 流程調度問題

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。


市面十大品牌封口機!該如何選購?

市面上的封口機一般分為兩種:一種是要預熱的,一種是不用預熱的(插電後即可直接使用。)而瞬熱式就是不用預熱的封口機



飲水機選購技巧大公開!!

機器上方放桶裝水,與桶裝水配套使用。桶裝飲水機在20世紀中期之前就出現了,這種飲水機被設計為機身頂部的一個專門的連接器倒放置水桶



使用真空封口機常見問題?

封口機用途廣泛,各產業袋類包裝,食品包裝、豆乾、喜餅、咖啡豆、咖啡粉掛耳包、鳳梨酥等等



2. 後端系統過載


3. 預期性資料匯入臨時出錯


4. CPU硬體出錯


5. 快取失效問題


6. 模型推論參考的抽樣分配出現改變


7. 組態配置改變導致的混亂


8. 資料結構沒有最佳化


9. 跨叢集分派工作的挑戰


10. 訓練策略執行沒有按照預期順序


11. 過於頻繁調整ML模型超參數


12. 組態變動而沒有妥善試驗或驗證


13. 用戶端對模型的推論做出錯誤臆測


14. 模型推論時間過長


15. 在程式碼中使用不正確assert巨集


16. 誤用標註錯誤的數據來訓練模型


17. 向量空間維度不匹配


18. 測試任務與正式環境的溝通不正確


19. 無法調度必要的頻寬、記憶體、CPU資源


資料來源:Google,iThome整理,2022年3月

https://www.ithome.com.tw/news/149859


飲水機皆有含淨水功能嗎?

採e化保養管理,用戶資料建檔完整售後服務,服務區域內深受各大機關團體、百大企業等等知名企業採用


信泰電機生產製作:鋁殼電阻、繞線電阻、剎車電阻、煞車電阻


有廠商專門客製化橡膠製品嗎?

橡膠,或稱樹奶,是一種有彈性的聚合物。橡膠可以從一些植物的樹汁中取得,也可以是人造的,兩者皆有相當多的應用及產品,例如輪胎、墊圈等(可與乳膠製成橡皮筋),逐漸成為重要經濟作物。橡膠的種植主要集中在東南亞地區,如泰國、馬來西亞、印度尼西亞。



好的茗茶,更需要密封性高的茶葉罐,才能留住香氣!

茶葉罐是用來存放茶葉的容器,有錫製、鐵製、陶瓷、玻璃、紙製的材質。






Orignal From: 10多年Google ML維運經驗,歸納19種ML當機情境要注意

留言

這個網誌中的熱門文章

澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

摘錄自2020年1月10日星島日報報導 澳洲山火持續,有專家估計10億隻野生動物喪生於大火,日前一名19歲少年和他的堂兄弟兩人自發展開無尾熊救援行動,一群受傷的無尾熊瑟縮在他們的車內,令人既悲傷又感動。 澳洲19歲少年米卡(Micah)和18歲的卡勒布(Caleb)是堂兄弟,在當地被稱為「無私的少年英雄」,因為他們在災害最嚴重的地區之一袋鼠島(Kangaroo Island)附近努力營救被大火圍困的無尾熊。 兄弟二人計劃暫時照顧這些受傷的無尾熊,等到一切都安全了才會將牠們放歸自然。同時,他們也因為英雄般的舉動廣受網民讚揚,同時引發更多人參與救援行動。 本站聲明:網站內容來源於https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】 ※ 牙冠增長術 治療費用   ※ 過40歲拉警報?何時該看「 不孕症 」門診? ※微感冒得吃藥? 紫錐花   紫錐菊 打擊感冒效果增六成 ※牙齒矯正通常 隱適美費用 要多少? ※早期發現早期治療!一張表讓你看懂 癌症檢測 、 性病篩檢 流程! ※ 菜花皰疹 病源不同性行為非唯一感染途徑 Orignal From: 澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

113年度「地方產業創新研發推動計畫」(地方型SBIR) 4月29日起受理申請

縣府為鼓勵縣內中小企業加強技術創新研發、協助縣內產業經濟佈局,辦理『南投縣政府「地方產業創新研發推動計畫」(地方型SBIR)』,本年度總計有804萬4,000元補助經費提供申請,受理期間自113年4月29日起至5月28日止,請有意申請的廠商備妥申請文件函送至縣府SBIR計畫辦公室(南投縣南投市光華路66-6號)辦理審查。   為鼓勵縣內新創事業發展與鼓勵青年返鄉,本年度申請資格為「所在地設立於南投縣之公司,或依商業登記法第4條規定,取得南投縣政府核發之商業登記者,並合於下列基準之獨資、合夥、有限合夥事業或公司:資本額在新臺幣一億元以下,或經常僱用員工數未滿200 人者。」即可申請;且比照中央認定標準及推動策略,新創、青創事業及符合ESG、SDGs議題之計畫還可列為加分項目。   本計畫補助之對象為設籍本縣之企業經營型態中小型企業,以具有地方特色之「農業科技產業」、「食品生技產業」、「觀光休憩產業」、「生活工藝產業」以及「精密機械產業」等5大創新研發產業為主。申請者所提計畫之技術或產品指標,應具有創新性或能提高廠商技術水準,包含理論分析與模擬、設計、研發及應用產品、服務行銷等;或符合節約資源與能源及增進環保與工業安全,有助於促進產業永續發展或綠色清潔生產概念之新技術、產品。   申請文件及相關說明請至縣府網站首頁點選「我們的服務–產業發展–地方型SBIR專區」下載,如有相關問題與意見,歡迎電洽(049) 2325936南投縣政府SBIR計畫辦公室,或縣府建設處產業發展科:049-2222106轉1461諮詢。 【其他文章推薦】 買不起高檔茶葉,精緻包裝 茶葉罐 ,也能撐場面! SMD electronic parts counting machine 新北市探針 專業製造,出貨迅速、品質穩定 哪裡買的到省力省空間,方便攜帶的 購物推車 ? 空壓機 這裡買最划算!為您解決工作中需要風量、風壓的問題 Orignal From: 113年度「地方產業創新研發推動計畫」(地方型SBIR) 4月29日起受理申請

調查显示:大學生每天玩網游約2小時 近四成關注網紅_L夾

※哪裡有合版印刷優惠,尋找 L夾 客製化印刷廠商? 精心設計呈現出不一樣的風格,是贈品、廣告行銷、政令宣導的熱門首選。 近日,2018年中國社會科學院"中國大學生追蹤調查(PSCUS)"研究結果公布。對全國18所高校在校大學生的調查發現,近六成的大學生都觀看過網絡直播,其中14.4%的大學生表示基本每天都看,至少每周都看1次直播的人數也超過樣本總數的五分之一。   調研發現,男生觀看直播的頻率顯著高於女生,有一半左右的的女生看過直播,而有七成的男生都表示看過直播,基本每天都看直播男生比例明顯高於女生。   "有近四成的大學生關注網紅。其中,8.0%的大學生基本每天都查看網紅動態,16.0%的大學生至少每周查看一次。"參与本次課題研究的社科院博士生郭亞平說。   在觀看直播和網紅的類型上,遊戲類、科技類、美妝類受95后大學生歡迎,財經類、教育類直播和網紅在大學生群體中卻少有受到關注,僅有2%和3%的群體關注。   郭亞平認為,對大學生群體來說,觀看網絡直播更多是為了滿足休閑娛樂的需要,還沒有將直播作為獲取資訊和學習的重要途徑。 ※如何正確使用 飲水機 ? 電解水部份採用美國NSF認證通過之過濾系統,再加上超強白金電解槽並採用日本九州日立的電解元件,安全性高,品質有保障。   調查發現,8.0%的大學生在網絡直播平台上做過直播,兩成者(23.8%)想成為主播,其中超過三成的人想成為遊戲主播,接近兩成的人生想成為美食主播。   與80后、90后大學生相比,95后大學生初次接觸互聯網的時間更早,95后大學生首次觸網的年齡平均約為11歲;2000年出生的大學生,首次觸網的平均年齡已經提早到9歲。   網絡遊戲是研究青年繞不開的話題。梳理數據發現,大學生平均每天玩網絡遊戲的時間約為2小時,超過兩成(22.95%)的大學生基本每天都玩網絡遊戲。遊戲不再只是男生的偏好,接近一半(47.7%)的女生表示玩網絡遊戲,14%的女生基本每天都玩,五分之一的女生至少每周玩一次。   按照學校進行分類,課題組發現,高職院校玩遊戲者近七成,普通本科玩遊戲者超五成,雙一流高校玩遊戲者超六成。   網絡預約服務的出現極大便利了人們的生活,大學生也成為網絡預約服務的重要客戶群。72.1%的大學生使用過網絡約車服...