跳到主要內容

畫分勢力範圍的K-means



如果有一組資料,沒有任何事先的分類標記,有辦法對它們進行分群(Clustering)嗎?呃……通靈比較快!想要分群,總是必須指定某些條件作為依據。


而分群演算法有不少,入門時,常會先接觸到K-means分群,因為它概念上容易理解,實作上也不困難,在機器學習的領域,K-means演算被歸類在非監督式(unsupervised)學習,意即無需人類介入標記,也能自動分群。


以距離來衡量勢力


從結果來看,K-means分群時,確實是不需要標記,但它並不是沒有任何假設就能自動分群。


在使用K-means分群時,其實就意謂著,同意了「資料之間有距離的概念」、「群心勢力範圍內的資料屬於同一群」的假設,也就是實際上,你還是已經告訴機器該怎麼做,簡單來說就是,以距離為勢力依據,尋找勢力均衡。


既然是以距離為依據,那麼,我們透過座標資料來理解K-means分群原理,是最為簡單的方式,若有一堆點散落在座標平面,這些點在視覺上顯然構成兩群,若要對這些點自動標記為A、B兩群,由於K-means的假設是「群心勢力範圍內的資料屬於同一群」,首要任務是尋找群心,然而,窮舉出各點間的組合、逐一計算距離,顯然行不通,因為需要的運算過於龐大。


一般而言,K-means尋找群心的方式,是採取最大期望(Expectation-maximization)演算法,先隨機找兩個位置當群心,接著是期望(Expectation)步驟,看其他點距離哪個群心近(通常採取歐式距離),就將該點畫分為與該群心同一群,最後會得到兩群,再接著是最大化(Maximization)步驟,最大化群心與群中各點的距離,針對兩群的資料,各求其幾何中心,作為新群心,也就是每個座標分量的算術平均值(這也就是為何K-means有means 字眼的原因),作為新的群心座標。


如果舊群心與新群心差距太大(未收斂),重複期望步驟與最大化步驟,直到舊群心與新群心變動不大(在某個差距內),或者是超過了指定的迭代次數而結束。以方才兩群座標為例,若能順利收斂,A群資料至A群心的距離,會小於它們至B群心的距離。


以距離加總來衡量群數


直接指定群數依距離分群,是K-means最常的應用之一,特別是透過資料在距離上的區隔,我們可以明顯觀察出一群一群的趨勢時,透過K-means就非常的方便。


座標之間的距離概念容易理解,然而,像分數之類的,也具有距離的概念,像是各學科分數,例如,有人擅長文科、有人擅長理科,此時,若將文科、理科的分數作為資料,可能也會有一群一群的趨勢;另外,像是人與人間的年紀差距、學歷差距、年收入差距、子女差距、居住城市發展指標的差距等,都是具有距離遠近的概念。


有時候手邊的資料,不見得能夠以可視化的方式,來判斷可以分為幾群(特別是高維資料),或者就算能可視化,也看不出群與群之間的分界為何,這時如何能決定該分為幾群呢?


基本上,同一群資料至其群心的距離,應該不會大於至另一群心的距離,既然如此,如果我們將各群資料各自平方距離的加總,應該可以作為分群個數的參考。


空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。


貨櫃屋優勢特性有哪些?

由於貨櫃屋[可移動/施工快速/可組裝、堆疊(延展性高)/可回收/未來擴充便利]等特性,二手貨櫃屋已普遍被應用於展場活動、居家住宅、工業商辦上。

客製專屬滑鼠墊、可愛造型L夾L型資料夾、透明證件套、手提袋,專業印刷設計廠商!

通過SGS環保認證,無毒無害 環保材質符合歐盟RoHs、REACH認證


SMD electronic parts counting machine

累積多年設計生產 Embossed Carrier Tape承載帶的實際經驗,專為電子主、被動零件設計、包裝、製造、改良承載帶、奠定了良好基礎



然而,隨著群數變大,各群平方距離加總必然會變小,為了尋找適當的平方距離加總,我們可以將群數與距離加總可視化為曲線,找出曲線中突然變和緩處的群數,這表示:更多群數終低平方距離加總的效益不大了,而這個方式稱為手肘法(Elbow method)。


另外,群與群之間的輪廓如果是明顯的,重疊的部份理應比較小。事實上,有一種稱為輪廓係數(Silhouette coefficient)的方式,我們可以用來評估群與群間的輪廓,計算方式為b*a/max(a, b),a是群中各點間的平均距離,b是某群中各點與最接近群中各點間的平均距離,而且,輪廓係數越大,分群的品質就越好。


只不過,找出可能的群數後,各群代表的意義,是必須去思考的,例如,給你一堆圖片,若透過手肘法、輪廓係數分析後,認為可以分為十群,那這十群代表什麼呢?如果圖片其實來自MINST手寫數字圖片資料集,能猜出這些圖片分群後代表著十個數字嗎?


也就是說,K-means可以作為一種分析資料的工具,例如,你手中有一組人們的資料,包含了學歷差距、收入差距、年紀、居住縣市(經緯度、離首都的遠近)等,這些資料會不會有某種群聚性呢?分為三個群,合理嗎?還是要四個、五個?如果這些資料能夠分群了,那麼,這些群個別又代表什麼意義呢?政治取向?消費習慣嗎?


以勢力的中心作為代表


使用K-means分群後,群心勢力範圍內的資料屬於同一群,談到勢力範圍,我們可能會直覺地聯想到Voronoi,其中每個細胞的核心,就相當於分群後的群心,細胞邊界規範的勢力範圍,就畫分了資料屬於哪一群,確實!若視覺化後群與群之間有明顯的群聚,透過沃羅諾伊圖(Voronoi Diagram),我們可以畫分出群與群之間的勢力界線。


群心是勢力範圍的幾何中心,是群中資料的平均值,若使用群心來取代該群中每一筆資料,不就可以是一種壓縮資訊的方式?例如,彩色圖片具有RGB三原色,而RGB的資訊可以當成座標資訊、畫在三維空間,相近的色彩在三維空間中,會有距離上的相近,若將之分群,以群心的RGB來作為同群的顏色,就可以減少色彩資訊。


可能的應用之一是,在印刷一張彩色圖片時,只能使用K個顏色,這時透過K-means來分出K群,找出群心的RGB資訊,使用群心顏色填滿同一群,也就是相近的顏色(不是像素座標上的距離相近)最後都變成同一色,最後圖片的顏色會被壓縮K個(不是像素被壓縮為K個)。


從另一方面來看,使用群心來代表該群資料,代表著n筆資料可以被壓縮為K筆資訊,也就是說,K-means某些程度上也可做為一種降維工具。無論是單純地壓縮資訊,或作為降維,K的選擇是直接視需求而定,跟平方距離加總、輪廓係數等的評估就無關了。


其他形狀的勢力範圍


使用K-means,其實,還有另一個假設,那就是:在採取歐氏距離的情況下,就二維來看,勢力範圍基本上是個圓形,三維來看是個球形,圓或球之間會有受到擠壓的界線;然而,資料不見得會群聚為這類形狀,畢竟你應該也看過群聚為橢圓、狹長形狀等的資料。


有種高斯混合模型(Gaussian mixture models)類似K-means,同樣採用最大期望演算,不過,它增加了權重與高斯機率分佈等,來作為資料分群與尋找群心的依據,如此一來,各群的勢力範圍就不會單純是圓或球之類的形狀,甚至可以進行複雜的非線性分群。


綜合來說,K-means的原理雖然簡單,就結果而言是分群沒錯,然而重點在於分析資料是否具備距離的概念,以及分群後各群或群心代表的意義,如此就能衍生出多元化的應用。

https://www.ithome.com.tw/voice/146393


票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻專營:封口機、各式包裝機械、專業製造、全省批發零售



幫你考照過關,堆高機裝卸操作教學影片大公開 !

上千家公司找到最適合的堆高機搬運方案,專業的規劃與完善的售後服務,讓孚克力堆高機與各大知名廠商建立長期合作。


總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。


全自動飲水機與一般飲水機差異在哪?

推薦各種冰溫熱開飲機飲水機:台銀採購契約飲水機、日本進口電解水機系列、落地型飲水機




Orignal From: 畫分勢力範圍的K-means

留言

這個網誌中的熱門文章

澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

摘錄自2020年1月10日星島日報報導 澳洲山火持續,有專家估計10億隻野生動物喪生於大火,日前一名19歲少年和他的堂兄弟兩人自發展開無尾熊救援行動,一群受傷的無尾熊瑟縮在他們的車內,令人既悲傷又感動。 澳洲19歲少年米卡(Micah)和18歲的卡勒布(Caleb)是堂兄弟,在當地被稱為「無私的少年英雄」,因為他們在災害最嚴重的地區之一袋鼠島(Kangaroo Island)附近努力營救被大火圍困的無尾熊。 兄弟二人計劃暫時照顧這些受傷的無尾熊,等到一切都安全了才會將牠們放歸自然。同時,他們也因為英雄般的舉動廣受網民讚揚,同時引發更多人參與救援行動。 本站聲明:網站內容來源於https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】 ※ 牙冠增長術 治療費用   ※ 過40歲拉警報?何時該看「 不孕症 」門診? ※微感冒得吃藥? 紫錐花   紫錐菊 打擊感冒效果增六成 ※牙齒矯正通常 隱適美費用 要多少? ※早期發現早期治療!一張表讓你看懂 癌症檢測 、 性病篩檢 流程! ※ 菜花皰疹 病源不同性行為非唯一感染途徑 Orignal From: 澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

113年度「地方產業創新研發推動計畫」(地方型SBIR) 4月29日起受理申請

縣府為鼓勵縣內中小企業加強技術創新研發、協助縣內產業經濟佈局,辦理『南投縣政府「地方產業創新研發推動計畫」(地方型SBIR)』,本年度總計有804萬4,000元補助經費提供申請,受理期間自113年4月29日起至5月28日止,請有意申請的廠商備妥申請文件函送至縣府SBIR計畫辦公室(南投縣南投市光華路66-6號)辦理審查。   為鼓勵縣內新創事業發展與鼓勵青年返鄉,本年度申請資格為「所在地設立於南投縣之公司,或依商業登記法第4條規定,取得南投縣政府核發之商業登記者,並合於下列基準之獨資、合夥、有限合夥事業或公司:資本額在新臺幣一億元以下,或經常僱用員工數未滿200 人者。」即可申請;且比照中央認定標準及推動策略,新創、青創事業及符合ESG、SDGs議題之計畫還可列為加分項目。   本計畫補助之對象為設籍本縣之企業經營型態中小型企業,以具有地方特色之「農業科技產業」、「食品生技產業」、「觀光休憩產業」、「生活工藝產業」以及「精密機械產業」等5大創新研發產業為主。申請者所提計畫之技術或產品指標,應具有創新性或能提高廠商技術水準,包含理論分析與模擬、設計、研發及應用產品、服務行銷等;或符合節約資源與能源及增進環保與工業安全,有助於促進產業永續發展或綠色清潔生產概念之新技術、產品。   申請文件及相關說明請至縣府網站首頁點選「我們的服務–產業發展–地方型SBIR專區」下載,如有相關問題與意見,歡迎電洽(049) 2325936南投縣政府SBIR計畫辦公室,或縣府建設處產業發展科:049-2222106轉1461諮詢。 【其他文章推薦】 買不起高檔茶葉,精緻包裝 茶葉罐 ,也能撐場面! SMD electronic parts counting machine 新北市探針 專業製造,出貨迅速、品質穩定 哪裡買的到省力省空間,方便攜帶的 購物推車 ? 空壓機 這裡買最划算!為您解決工作中需要風量、風壓的問題 Orignal From: 113年度「地方產業創新研發推動計畫」(地方型SBIR) 4月29日起受理申請

中國網友抱怨購入雲米AI智慧冰箱,螢幕都是蓋版廣告還關不掉(官方已發聲明回應)

這些年許多家庭陸續為家中換上了智慧家電,其中電冰箱除了知名的 LG 有具備顯示螢幕的智慧冰箱,在小米生態鏈企業中的雲米,其實也有多款配備超大觸控顯示螢幕的 AI 智慧冰箱產品。不過日前有中國網友在抱怨自己購入了雲米AI智慧冰箱,但螢幕喚醒總是充斥著各種廣告資訊還關不掉,且已經嚴重影響到生活。後來事件在網路上發酵後,雲米官方也發表聲明回應。 ▲圖片來源: 中國網友抱怨購入雲米AI智慧冰箱,螢幕都是蓋版廣告還關不掉(官方已發聲明回應) 大型智慧家電種類相當多,其中連冰箱也都已經有智慧冰箱多年了。購入這種冰箱門上配備大尺寸觸控螢幕的智慧冰箱,能透過螢幕資訊顯示料理食譜、烹飪教學甚至是網購買食材都可以完成,也讓居家料理生活看起來更聰明、更方便。但在中國日前有網友就抱怨自己購買了雲米配備觸控螢幕的 AI 智慧冰箱,點擊螢幕喚醒時卻出現各種廣告訊息。 ▲圖片來源: 也有網友戲稱「以為是買了電冰箱,結果想不到是把電梯廣告看板搬到家中」。 ▲電梯廣告看板示意圖,非雲米產品 起初,網友在網路上分享抱怨購買雲米智慧冰箱,卻發現大螢幕一直推送廣告資訊,甚至已經感到嚴重影響生活的程度。該網友表示表示在聯繫詢問客服人員廣告可關閉嗎?客服回應廣告無法關閉。後來詢問能儲值會員,能關閉廣告嗎?官方也就沒有再回覆。 隨後有網友分享了和雲米客服的對話截圖,雲米官方客服人員第一時間表示螢幕設定和電腦螢幕保護程式有點類似,在不使用時會推薦頁面廣告,也有很多其他功能,像是能看電視、聽歌和食譜,也能設定螢幕喚醒時間讓螢幕直接休眠。 ▲圖片來源: 臭氧機 的滅菌效果如何? 多加科技公司前身─多加企業社於2000年設立於高雄市,從事水處理、加水站設計規劃營運,以臭氧機、紫外線燈作水質淨化、殺菌設備 隨時健康喝好水,高品質 飲水機 ,優質安全有把關 瀚洋飲水機永續經營於雲嘉南高地區,我們堅持一貫的理念,強調服務品質及維護時效,採e化保養管理 選擇 示波器 的10 項考量因素 示波器的頻寬定義為訊號衰減3dB時的訊號頻率。若一台示波器頻寬不夠會導致看到的訊號失真,測試不準確。頻寬指標主要體現在衰減器與放大器的指標。即時取樣率體現出示波器的ADC的指標。取樣率通常要大於等於頻寬的4倍。 工業用攪拌機 哪裡有? SPXFLOW 斯必克...