跳到主要內容

畫分勢力範圍的K-means



如果有一組資料,沒有任何事先的分類標記,有辦法對它們進行分群(Clustering)嗎?呃……通靈比較快!想要分群,總是必須指定某些條件作為依據。


而分群演算法有不少,入門時,常會先接觸到K-means分群,因為它概念上容易理解,實作上也不困難,在機器學習的領域,K-means演算被歸類在非監督式(unsupervised)學習,意即無需人類介入標記,也能自動分群。


以距離來衡量勢力


從結果來看,K-means分群時,確實是不需要標記,但它並不是沒有任何假設就能自動分群。


在使用K-means分群時,其實就意謂著,同意了「資料之間有距離的概念」、「群心勢力範圍內的資料屬於同一群」的假設,也就是實際上,你還是已經告訴機器該怎麼做,簡單來說就是,以距離為勢力依據,尋找勢力均衡。


既然是以距離為依據,那麼,我們透過座標資料來理解K-means分群原理,是最為簡單的方式,若有一堆點散落在座標平面,這些點在視覺上顯然構成兩群,若要對這些點自動標記為A、B兩群,由於K-means的假設是「群心勢力範圍內的資料屬於同一群」,首要任務是尋找群心,然而,窮舉出各點間的組合、逐一計算距離,顯然行不通,因為需要的運算過於龐大。


一般而言,K-means尋找群心的方式,是採取最大期望(Expectation-maximization)演算法,先隨機找兩個位置當群心,接著是期望(Expectation)步驟,看其他點距離哪個群心近(通常採取歐式距離),就將該點畫分為與該群心同一群,最後會得到兩群,再接著是最大化(Maximization)步驟,最大化群心與群中各點的距離,針對兩群的資料,各求其幾何中心,作為新群心,也就是每個座標分量的算術平均值(這也就是為何K-means有means 字眼的原因),作為新的群心座標。


如果舊群心與新群心差距太大(未收斂),重複期望步驟與最大化步驟,直到舊群心與新群心變動不大(在某個差距內),或者是超過了指定的迭代次數而結束。以方才兩群座標為例,若能順利收斂,A群資料至A群心的距離,會小於它們至B群心的距離。


以距離加總來衡量群數


直接指定群數依距離分群,是K-means最常的應用之一,特別是透過資料在距離上的區隔,我們可以明顯觀察出一群一群的趨勢時,透過K-means就非常的方便。


座標之間的距離概念容易理解,然而,像分數之類的,也具有距離的概念,像是各學科分數,例如,有人擅長文科、有人擅長理科,此時,若將文科、理科的分數作為資料,可能也會有一群一群的趨勢;另外,像是人與人間的年紀差距、學歷差距、年收入差距、子女差距、居住城市發展指標的差距等,都是具有距離遠近的概念。


有時候手邊的資料,不見得能夠以可視化的方式,來判斷可以分為幾群(特別是高維資料),或者就算能可視化,也看不出群與群之間的分界為何,這時如何能決定該分為幾群呢?


基本上,同一群資料至其群心的距離,應該不會大於至另一群心的距離,既然如此,如果我們將各群資料各自平方距離的加總,應該可以作為分群個數的參考。


空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。


貨櫃屋優勢特性有哪些?

由於貨櫃屋[可移動/施工快速/可組裝、堆疊(延展性高)/可回收/未來擴充便利]等特性,二手貨櫃屋已普遍被應用於展場活動、居家住宅、工業商辦上。

客製專屬滑鼠墊、可愛造型L夾L型資料夾、透明證件套、手提袋,專業印刷設計廠商!

通過SGS環保認證,無毒無害 環保材質符合歐盟RoHs、REACH認證


SMD electronic parts counting machine

累積多年設計生產 Embossed Carrier Tape承載帶的實際經驗,專為電子主、被動零件設計、包裝、製造、改良承載帶、奠定了良好基礎



然而,隨著群數變大,各群平方距離加總必然會變小,為了尋找適當的平方距離加總,我們可以將群數與距離加總可視化為曲線,找出曲線中突然變和緩處的群數,這表示:更多群數終低平方距離加總的效益不大了,而這個方式稱為手肘法(Elbow method)。


另外,群與群之間的輪廓如果是明顯的,重疊的部份理應比較小。事實上,有一種稱為輪廓係數(Silhouette coefficient)的方式,我們可以用來評估群與群間的輪廓,計算方式為b*a/max(a, b),a是群中各點間的平均距離,b是某群中各點與最接近群中各點間的平均距離,而且,輪廓係數越大,分群的品質就越好。


只不過,找出可能的群數後,各群代表的意義,是必須去思考的,例如,給你一堆圖片,若透過手肘法、輪廓係數分析後,認為可以分為十群,那這十群代表什麼呢?如果圖片其實來自MINST手寫數字圖片資料集,能猜出這些圖片分群後代表著十個數字嗎?


也就是說,K-means可以作為一種分析資料的工具,例如,你手中有一組人們的資料,包含了學歷差距、收入差距、年紀、居住縣市(經緯度、離首都的遠近)等,這些資料會不會有某種群聚性呢?分為三個群,合理嗎?還是要四個、五個?如果這些資料能夠分群了,那麼,這些群個別又代表什麼意義呢?政治取向?消費習慣嗎?


以勢力的中心作為代表


使用K-means分群後,群心勢力範圍內的資料屬於同一群,談到勢力範圍,我們可能會直覺地聯想到Voronoi,其中每個細胞的核心,就相當於分群後的群心,細胞邊界規範的勢力範圍,就畫分了資料屬於哪一群,確實!若視覺化後群與群之間有明顯的群聚,透過沃羅諾伊圖(Voronoi Diagram),我們可以畫分出群與群之間的勢力界線。


群心是勢力範圍的幾何中心,是群中資料的平均值,若使用群心來取代該群中每一筆資料,不就可以是一種壓縮資訊的方式?例如,彩色圖片具有RGB三原色,而RGB的資訊可以當成座標資訊、畫在三維空間,相近的色彩在三維空間中,會有距離上的相近,若將之分群,以群心的RGB來作為同群的顏色,就可以減少色彩資訊。


可能的應用之一是,在印刷一張彩色圖片時,只能使用K個顏色,這時透過K-means來分出K群,找出群心的RGB資訊,使用群心顏色填滿同一群,也就是相近的顏色(不是像素座標上的距離相近)最後都變成同一色,最後圖片的顏色會被壓縮K個(不是像素被壓縮為K個)。


從另一方面來看,使用群心來代表該群資料,代表著n筆資料可以被壓縮為K筆資訊,也就是說,K-means某些程度上也可做為一種降維工具。無論是單純地壓縮資訊,或作為降維,K的選擇是直接視需求而定,跟平方距離加總、輪廓係數等的評估就無關了。


其他形狀的勢力範圍


使用K-means,其實,還有另一個假設,那就是:在採取歐氏距離的情況下,就二維來看,勢力範圍基本上是個圓形,三維來看是個球形,圓或球之間會有受到擠壓的界線;然而,資料不見得會群聚為這類形狀,畢竟你應該也看過群聚為橢圓、狹長形狀等的資料。


有種高斯混合模型(Gaussian mixture models)類似K-means,同樣採用最大期望演算,不過,它增加了權重與高斯機率分佈等,來作為資料分群與尋找群心的依據,如此一來,各群的勢力範圍就不會單純是圓或球之類的形狀,甚至可以進行複雜的非線性分群。


綜合來說,K-means的原理雖然簡單,就結果而言是分群沒錯,然而重點在於分析資料是否具備距離的概念,以及分群後各群或群心代表的意義,如此就能衍生出多元化的應用。

https://www.ithome.com.tw/voice/146393


票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻專營:封口機、各式包裝機械、專業製造、全省批發零售



幫你考照過關,堆高機裝卸操作教學影片大公開 !

上千家公司找到最適合的堆高機搬運方案,專業的規劃與完善的售後服務,讓孚克力堆高機與各大知名廠商建立長期合作。


總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。


全自動飲水機與一般飲水機差異在哪?

推薦各種冰溫熱開飲機飲水機:台銀採購契約飲水機、日本進口電解水機系列、落地型飲水機




Orignal From: 畫分勢力範圍的K-means

留言

這個網誌中的熱門文章

澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

摘錄自2020年1月10日星島日報報導 澳洲山火持續,有專家估計10億隻野生動物喪生於大火,日前一名19歲少年和他的堂兄弟兩人自發展開無尾熊救援行動,一群受傷的無尾熊瑟縮在他們的車內,令人既悲傷又感動。 澳洲19歲少年米卡(Micah)和18歲的卡勒布(Caleb)是堂兄弟,在當地被稱為「無私的少年英雄」,因為他們在災害最嚴重的地區之一袋鼠島(Kangaroo Island)附近努力營救被大火圍困的無尾熊。 兄弟二人計劃暫時照顧這些受傷的無尾熊,等到一切都安全了才會將牠們放歸自然。同時,他們也因為英雄般的舉動廣受網民讚揚,同時引發更多人參與救援行動。 本站聲明:網站內容來源於https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】 ※ 牙冠增長術 治療費用   ※ 過40歲拉警報?何時該看「 不孕症 」門診? ※微感冒得吃藥? 紫錐花   紫錐菊 打擊感冒效果增六成 ※牙齒矯正通常 隱適美費用 要多少? ※早期發現早期治療!一張表讓你看懂 癌症檢測 、 性病篩檢 流程! ※ 菜花皰疹 病源不同性行為非唯一感染途徑 Orignal From: 澳洲19歲少年英勇大營救 燒傷無尾熊坐滿車上

113年度「地方產業創新研發推動計畫」(地方型SBIR) 4月29日起受理申請

縣府為鼓勵縣內中小企業加強技術創新研發、協助縣內產業經濟佈局,辦理『南投縣政府「地方產業創新研發推動計畫」(地方型SBIR)』,本年度總計有804萬4,000元補助經費提供申請,受理期間自113年4月29日起至5月28日止,請有意申請的廠商備妥申請文件函送至縣府SBIR計畫辦公室(南投縣南投市光華路66-6號)辦理審查。   為鼓勵縣內新創事業發展與鼓勵青年返鄉,本年度申請資格為「所在地設立於南投縣之公司,或依商業登記法第4條規定,取得南投縣政府核發之商業登記者,並合於下列基準之獨資、合夥、有限合夥事業或公司:資本額在新臺幣一億元以下,或經常僱用員工數未滿200 人者。」即可申請;且比照中央認定標準及推動策略,新創、青創事業及符合ESG、SDGs議題之計畫還可列為加分項目。   本計畫補助之對象為設籍本縣之企業經營型態中小型企業,以具有地方特色之「農業科技產業」、「食品生技產業」、「觀光休憩產業」、「生活工藝產業」以及「精密機械產業」等5大創新研發產業為主。申請者所提計畫之技術或產品指標,應具有創新性或能提高廠商技術水準,包含理論分析與模擬、設計、研發及應用產品、服務行銷等;或符合節約資源與能源及增進環保與工業安全,有助於促進產業永續發展或綠色清潔生產概念之新技術、產品。   申請文件及相關說明請至縣府網站首頁點選「我們的服務–產業發展–地方型SBIR專區」下載,如有相關問題與意見,歡迎電洽(049) 2325936南投縣政府SBIR計畫辦公室,或縣府建設處產業發展科:049-2222106轉1461諮詢。 【其他文章推薦】 買不起高檔茶葉,精緻包裝 茶葉罐 ,也能撐場面! SMD electronic parts counting machine 新北市探針 專業製造,出貨迅速、品質穩定 哪裡買的到省力省空間,方便攜帶的 購物推車 ? 空壓機 這裡買最划算!為您解決工作中需要風量、風壓的問題 Orignal From: 113年度「地方產業創新研發推動計畫」(地方型SBIR) 4月29日起受理申請

調查显示:大學生每天玩網游約2小時 近四成關注網紅_L夾

※哪裡有合版印刷優惠,尋找 L夾 客製化印刷廠商? 精心設計呈現出不一樣的風格,是贈品、廣告行銷、政令宣導的熱門首選。 近日,2018年中國社會科學院"中國大學生追蹤調查(PSCUS)"研究結果公布。對全國18所高校在校大學生的調查發現,近六成的大學生都觀看過網絡直播,其中14.4%的大學生表示基本每天都看,至少每周都看1次直播的人數也超過樣本總數的五分之一。   調研發現,男生觀看直播的頻率顯著高於女生,有一半左右的的女生看過直播,而有七成的男生都表示看過直播,基本每天都看直播男生比例明顯高於女生。   "有近四成的大學生關注網紅。其中,8.0%的大學生基本每天都查看網紅動態,16.0%的大學生至少每周查看一次。"參与本次課題研究的社科院博士生郭亞平說。   在觀看直播和網紅的類型上,遊戲類、科技類、美妝類受95后大學生歡迎,財經類、教育類直播和網紅在大學生群體中卻少有受到關注,僅有2%和3%的群體關注。   郭亞平認為,對大學生群體來說,觀看網絡直播更多是為了滿足休閑娛樂的需要,還沒有將直播作為獲取資訊和學習的重要途徑。 ※如何正確使用 飲水機 ? 電解水部份採用美國NSF認證通過之過濾系統,再加上超強白金電解槽並採用日本九州日立的電解元件,安全性高,品質有保障。   調查發現,8.0%的大學生在網絡直播平台上做過直播,兩成者(23.8%)想成為主播,其中超過三成的人想成為遊戲主播,接近兩成的人生想成為美食主播。   與80后、90后大學生相比,95后大學生初次接觸互聯網的時間更早,95后大學生首次觸網的年齡平均約為11歲;2000年出生的大學生,首次觸網的平均年齡已經提早到9歲。   網絡遊戲是研究青年繞不開的話題。梳理數據發現,大學生平均每天玩網絡遊戲的時間約為2小時,超過兩成(22.95%)的大學生基本每天都玩網絡遊戲。遊戲不再只是男生的偏好,接近一半(47.7%)的女生表示玩網絡遊戲,14%的女生基本每天都玩,五分之一的女生至少每周玩一次。   按照學校進行分類,課題組發現,高職院校玩遊戲者近七成,普通本科玩遊戲者超五成,雙一流高校玩遊戲者超六成。   網絡預約服務的出現極大便利了人們的生活,大學生也成為網絡預約服務的重要客戶群。72.1%的大學生使用過網絡約車服...