跳到主要內容

10多年Google ML維運經驗,歸納19種ML當機情境要注意


在分析近百起ML當機事故調查後,Google ML維運團隊發現,許多ML系統當機事故,並非歸因於ML本身的問題,而是系統管理所造的錯誤,才有後面當機的結果,例如後端系統過載、跨叢集分派工作的挑戰等。(圖片來源/USENIX)



多年前,Google開始在ML維運中導入SRE的作法,確保系統的服務可靠性,在2年前一場OpML '20技術大會上,Google ML SRE維運負責人Todd Underwood與另一位團隊資深成員Daniel Papasian實際以Google搜尋服務維運為例,公開分享他們從搜尋服務ML當機經驗中,發展出一套因應對策,除了希望改善大型ML系統當機的問題,還要幫助Google建立更有韌性的ML維運策略,甚至還發現到,許多ML當機事故並非真的ML服務出錯,而是系統管理的問題。他們更依據超過10年Google ML維運歸納出19種ML出錯情境的分類,來提供企業借鏡參考。


從老舊ML系統當機經驗中找解方,成了Google ML維運團隊研究新課題


搜尋引擎可說是Google最重要核心服務之一,如今近半數全球人口都在用,平均每秒就要處理高達7萬次使用者搜索查詢的請求,從回答各種生活大小事,到天氣、交通資訊都難不倒它。


早在多年以前,Google就已經在搜尋引擎中加入各種ML演算法,提供更精準的搜尋結果,像是分析搜尋字詞、搜尋比對、網頁實用性排名的演算法等,只要依據使用者查詢字詞、網頁的關聯性和實用性、資訊來源的專業度分析等綜合不同考量,就能從搜尋索引中的上兆個網頁排序裡,決定查詢的搜尋結果,來貼近使用者搜尋查詢。


Google搜尋引擎演算法核心有個大型排名及推薦系統,這套系統經過多年發展,其中有套用了超過15年的老舊ML系統,也是Google使用最久且規模最大一套重要ML系統,但多年下來,這套系統屢屢發生當機的事故,無法用ML模型進行推論,來優化排名及推薦內容,導致服務品質不穩定。這也成了Google所要面對的ML維運大考驗。直到兩年多前,Google ML維運團隊終於找出了對策。


Google最老舊一套大型ML系統,建有上千個模型優化排名及推薦服務


以系統規模來看,這套大型ML系統中,每天同時要執行上千個ML模型,來優化排名及推薦服務,而且不只ML模型數量眾多,模型訓練更是個大問題,只要新資料進來,就必須不斷更新生產環境中的ML模型,光是上千個模型同時訓練,需存取和運算用的模型參數累計就高達1,000億個,才能用於全部模型訓練,加上這套系統歷經多次翻新,系統越來越複雜,就在這樣一個龐大且複雜大型系統架構下,有時只要ML工作流程或環節稍有差錯,就可能造成ML系統當機。


為了探究長期以來造成ML系統當機的原因,Google ML維運團隊兩年前嘗試進行研究,希望能找出適當的解法,避免相似問題再發生。他們分析過往所有ML系統當機事件,要從這些歷史事件中找到問題的根本原因,作為改善ML系統可靠性的參考依據,正好這套ML系統過去10年當機過程的詳細記錄都有完整保留在資料庫中,提供包含後設資料(metadata)在內的完整事後的調查分析,可供團隊研究使用。


這段期間,Google ML維運團隊一共分析近百起ML當機事故,從這些實際發生的事件中,自行分析歸納出19種ML出錯情境要注意。其中,最常見的一種就包辦了15起當機事故。


具體來說,這19種ML出錯情境的分類,有流程調度問題、後端系統過載、預期性資料匯入臨時出錯、CPU 硬體出錯、快取失效問題、模型推論參考的抽樣分配出現改變、組態配置改變導致的混亂、資料結構沒有最佳化、跨叢集分派工作的挑戰、訓練策略執行沒有按照預期順序、過於頻繁調整ML模型超參數、組態變動而沒有妥善試驗或驗證、用戶端對模型的推論做出錯誤臆測、模型推論時間過長、在程式碼中使用不正確assert巨集、誤用標註錯誤的數據來訓練模型、embedding向量空間維度不匹配、測試任務與正式環境的溝通不正確,以及無法調度必要的頻寬、記憶體、CPU資源。


基本上,從系統當機歸納出的原因中,可以看見有些出錯原因較單純,像是快取失效問題,還有一些是不易察覺的錯誤,如跨叢集分派工作的問題。另外有些錯誤則是與ML相關,例如embedding向量空間維度不匹配就是屬於這一類,甚至在複雜大型分散式系統環境下,也有可能因為使用的CPU晶片出錯,導致ML系統當機的情況出現。


當完成近百起ML當機事故調查,歸類成19種ML出錯情境後,還進一步以分組方式加以畫分,並分成兩個組別來進行比較,一組是純ML與非純ML工作流程兩者的比較,另一組則是單一系統或分散式系統間的比較。例如系統調度出錯造成當機,就是屬於分散式系統管理的問題。


維運團隊經過比較後發現,許多ML系統當機事故和其出錯原因,並非歸因於ML本身的問題,大多是系統管理所造的錯誤,才有後面當機的結果。從系統架構角度來看,他們則發現,若是ML系統有採取分散式架構設計,發生當機事故比例會比單一系統時更高,甚至多達6成出錯都跟分散式ML系統處理有關,這也可以用來說明,ML當機和其系統採用單一或分散式架構,彼此之間有一定的關聯性。


要維運一套大型ML系統,不能只懂ML,分散式系統管理更重要


從這些研究結果,Google ML維運團隊也找到一些方法,來改善ML系統可靠性,像是要求對ML工作流程進行全面監控及追蹤,包含監測資料吞吐量、ML系統執行率,以及結合各種診斷測試等。對於不同源頭的訓練數據、ML模型及檔案,也要建立系統化版本控管機制,以便發生當機事故時,團隊馬上能修正。重新訓練的ML模型部署前,也要確保能正常執行沒問題才能放行,避免影響到整體系統效能與利用率。


正因為許多當機事件都與分散式ML系統密切關聯,也讓Google ML維運團隊更加意識到,一套大型系統中,從建置到維運管理,除了必須有專門團隊來負責,對於維運團隊組成,不能只有ML工程師,還必須要有分散式系統的工程師加入,甚至人數比例要比ML工程師都還高,來負責大型系統測試和診斷,透過這樣的系統管理方式,才能提升系統的可靠性,甚至幫助Google建立起更有韌性的ML維運作法。


儘管,Google ML維運經驗不一定適用每一家企業,但從這家公司多年ML維運和思考策略,也能提供企業借鏡來參考。Todd Underwood就建議,企業可以根據歷史ML當機事件,按影響程度、對公司衝擊、事故持續時間和原因來進行分類,建立自己一套ML維運作法,除了經由分析找出根本原因,每年可以定期重新審視,持續改進內部ML工作流程。


 Google ML維運經驗:19種ML出錯情境 


1. 流程調度問題

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。


市面十大品牌封口機!該如何選購?

市面上的封口機一般分為兩種:一種是要預熱的,一種是不用預熱的(插電後即可直接使用。)而瞬熱式就是不用預熱的封口機



飲水機選購技巧大公開!!

機器上方放桶裝水,與桶裝水配套使用。桶裝飲水機在20世紀中期之前就出現了,這種飲水機被設計為機身頂部的一個專門的連接器倒放置水桶



使用真空封口機常見問題?

封口機用途廣泛,各產業袋類包裝,食品包裝、豆乾、喜餅、咖啡豆、咖啡粉掛耳包、鳳梨酥等等



2. 後端系統過載


3. 預期性資料匯入臨時出錯


4. CPU硬體出錯


5. 快取失效問題


6. 模型推論參考的抽樣分配出現改變


7. 組態配置改變導致的混亂


8. 資料結構沒有最佳化


9. 跨叢集分派工作的挑戰


10. 訓練策略執行沒有按照預期順序


11. 過於頻繁調整ML模型超參數


12. 組態變動而沒有妥善試驗或驗證


13. 用戶端對模型的推論做出錯誤臆測


14. 模型推論時間過長


15. 在程式碼中使用不正確assert巨集


16. 誤用標註錯誤的數據來訓練模型


17. 向量空間維度不匹配


18. 測試任務與正式環境的溝通不正確


19. 無法調度必要的頻寬、記憶體、CPU資源


資料來源:Google,iThome整理,2022年3月

https://www.ithome.com.tw/news/149859


飲水機皆有含淨水功能嗎?

採e化保養管理,用戶資料建檔完整售後服務,服務區域內深受各大機關團體、百大企業等等知名企業採用


信泰電機生產製作:鋁殼電阻、繞線電阻、剎車電阻、煞車電阻


有廠商專門客製化橡膠製品嗎?

橡膠,或稱樹奶,是一種有彈性的聚合物。橡膠可以從一些植物的樹汁中取得,也可以是人造的,兩者皆有相當多的應用及產品,例如輪胎、墊圈等(可與乳膠製成橡皮筋),逐漸成為重要經濟作物。橡膠的種植主要集中在東南亞地區,如泰國、馬來西亞、印度尼西亞。



好的茗茶,更需要密封性高的茶葉罐,才能留住香氣!

茶葉罐是用來存放茶葉的容器,有錫製、鐵製、陶瓷、玻璃、紙製的材質。






Orignal From: 10多年Google ML維運經驗,歸納19種ML當機情境要注意

留言

這個網誌中的熱門文章

中國網友抱怨購入雲米AI智慧冰箱,螢幕都是蓋版廣告還關不掉(官方已發聲明回應)

這些年許多家庭陸續為家中換上了智慧家電,其中電冰箱除了知名的 LG 有具備顯示螢幕的智慧冰箱,在小米生態鏈企業中的雲米,其實也有多款配備超大觸控顯示螢幕的 AI 智慧冰箱產品。不過日前有中國網友在抱怨自己購入了雲米AI智慧冰箱,但螢幕喚醒總是充斥著各種廣告資訊還關不掉,且已經嚴重影響到生活。後來事件在網路上發酵後,雲米官方也發表聲明回應。 ▲圖片來源: 中國網友抱怨購入雲米AI智慧冰箱,螢幕都是蓋版廣告還關不掉(官方已發聲明回應) 大型智慧家電種類相當多,其中連冰箱也都已經有智慧冰箱多年了。購入這種冰箱門上配備大尺寸觸控螢幕的智慧冰箱,能透過螢幕資訊顯示料理食譜、烹飪教學甚至是網購買食材都可以完成,也讓居家料理生活看起來更聰明、更方便。但在中國日前有網友就抱怨自己購買了雲米配備觸控螢幕的 AI 智慧冰箱,點擊螢幕喚醒時卻出現各種廣告訊息。 ▲圖片來源: 也有網友戲稱「以為是買了電冰箱,結果想不到是把電梯廣告看板搬到家中」。 ▲電梯廣告看板示意圖,非雲米產品 起初,網友在網路上分享抱怨購買雲米智慧冰箱,卻發現大螢幕一直推送廣告資訊,甚至已經感到嚴重影響生活的程度。該網友表示表示在聯繫詢問客服人員廣告可關閉嗎?客服回應廣告無法關閉。後來詢問能儲值會員,能關閉廣告嗎?官方也就沒有再回覆。 隨後有網友分享了和雲米客服的對話截圖,雲米官方客服人員第一時間表示螢幕設定和電腦螢幕保護程式有點類似,在不使用時會推薦頁面廣告,也有很多其他功能,像是能看電視、聽歌和食譜,也能設定螢幕喚醒時間讓螢幕直接休眠。 ▲圖片來源: 臭氧機 的滅菌效果如何? 多加科技公司前身─多加企業社於2000年設立於高雄市,從事水處理、加水站設計規劃營運,以臭氧機、紫外線燈作水質淨化、殺菌設備 隨時健康喝好水,高品質 飲水機 ,優質安全有把關 瀚洋飲水機永續經營於雲嘉南高地區,我們堅持一貫的理念,強調服務品質及維護時效,採e化保養管理 選擇 示波器 的10 項考量因素 示波器的頻寬定義為訊號衰減3dB時的訊號頻率。若一台示波器頻寬不夠會導致看到的訊號失真,測試不準確。頻寬指標主要體現在衰減器與放大器的指標。即時取樣率體現出示波器的ADC的指標。取樣率通常要大於等於頻寬的4倍。 工業用攪拌機 哪裡有? SPXFLOW 斯必克...

智慧科技打造循環經濟! 竹市設「循環方舟、無人回收站」 用AI光學辨識自動分選4大類資源物

記者 張維倫/新竹市報導 新竹市政府偕同凡立橙股份有限公司(ECOCO)推出「無人智慧回收設備」,設置「循環方舟」1座、「無人回收站」9站,共18台智慧回收機。今(15)日於新竹SOGO百貨前廣場辦理「循環方舟、無人回收站」啟動記者會,副市長邱臣遠親自體驗資源回收自動化的循環方舟,並邀請市民朋友一同來感受智慧科技帶來便利有趣的回收行動,共創循環經濟的宜居永續城市。 邱副市長說明,市府與ECOCO合作循環經濟,導入智慧回收系統,透過AI光學辨識,自動分選並將瓶罐的體積壓縮為原本的1/8,每分鐘最快可回收42支瓶罐。「無人回收站」分佈在東、北、香山3個行政區,設置9站共18台智慧回收機,離市府最近的「循環方舟」,就設置在新竹SOGO百貨,竹市是第1個非六都設置大型智慧回收設備的城市,「循環方舟」是全國第1座可回收HDPE牛奶瓶材質的機台設備,也是全國第1座設置在百貨公司的大型智慧回收設備,容量高達2萬支寶特瓶。其餘智慧回收機,每台容量可達2,000支寶特瓶。  邱副市長指出,市府重視環保永續,利用智慧治理的科技力,推出各類精采有趣、節能減碳的環保活動,讓民眾在日常生活就能執行愛地球的具體行動,提高環境品質,同步落實淨零綠生活、聯合國永續發展目標SDG6環境品質。推出的循環方舟與無人回收站,從今年6月15日起至年底,回收設備可以24小時全天候自動辨識做回收,不僅節省民眾回收時間,也可減輕末端清運負荷,更可讓民眾實現資源再生和循環經濟,推動綠色生產和消費。 邱副市長說,市府在市長高虹安的帶領下,朝 2050淨零碳排目標前進,不管是綠色經濟、綠色生活、綠色學習和綠色交通,都是要來打造一個永續環保的安居科技城,ESG的推動,更重要的是培養市民綠色生活的態度,利用無人回收站、循環方舟,不僅促進竹市經濟發展,也能讓親子一起學習做環保,平日使用無人回收機做環保的同時搭配APP,累積集點獎勵兌換折價券,實踐環保循環經濟。 環保局長江盛任說明,「無人回收站」回收品項為寶特瓶、鋁罐、廢乾電池等3大類資源物,「循環方舟」回收品項為寶特瓶、鋁罐、廢乾電池、HDPE牛奶瓶等4大類資源物。「寶特瓶」指塑膠國際辨識碼第1類,2公升以內的飲料PET材質瓶罐。「HDPE牛奶瓶」指塑膠國際辨識碼第2類,2公升以內半透光材質瓶罐。廢電池回收種類共7款,包括1號到6號乾電池、方形9V乾電池。...

植樹遏止氣候變遷 科學家說成效被高估

科學家警告說,全球大規模植樹遏止氣候變遷風險的可能成效被高估。 今年7月,蘇黎世聯邦理工學院(ETH Zurich)柯勞瑟實驗室(Crowther Lab)的研究人員發布研究報告,提出控制氣候變化的最好方法,就是在面積與美國相當的被毀森林重新植樹。 但德國波昂大學(University of Bonn)和位於奈洛比的世界農林複合研究中心「世界混農林業中心」(World Agroforestry Center)的科學家,18日在期刊「科學」(Science)發表回應文指出,在原先研究中可以在土地上種植的樹木數量有限。 波昂大學作物科學與資源保育研究所(Institute of Crop Sciences and Resource Conservation)教授魯德林(Eike Luedeling)表示,植樹造林不應被視為減少使用化石燃料排放的替代方案。 本站聲明:網站內容來源於https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理 【其他文章推薦】 ※找工作! 想知道 堆高機 駕駛日薪是多少嗎? 哪裡有職缺?幫你快速媒合 ※隨時健康喝好水,高品質 飲水機推薦 ,優質安全有把關 ※ 防爆隔熱紙 規格資訊說明 ※好的茗茶,更需要密封性高的 茶葉罐 ,才能留住香氣! ※【找人才】台北 塑膠射出廠 徵選技師,薪資優,福利佳 ※各款 電動堆高機 價格? Orignal From: 植樹遏止氣候變遷 科學家說成效被高估