跳到主要內容

畫分勢力範圍的K-means



如果有一組資料,沒有任何事先的分類標記,有辦法對它們進行分群(Clustering)嗎?呃……通靈比較快!想要分群,總是必須指定某些條件作為依據。


而分群演算法有不少,入門時,常會先接觸到K-means分群,因為它概念上容易理解,實作上也不困難,在機器學習的領域,K-means演算被歸類在非監督式(unsupervised)學習,意即無需人類介入標記,也能自動分群。


以距離來衡量勢力


從結果來看,K-means分群時,確實是不需要標記,但它並不是沒有任何假設就能自動分群。


在使用K-means分群時,其實就意謂著,同意了「資料之間有距離的概念」、「群心勢力範圍內的資料屬於同一群」的假設,也就是實際上,你還是已經告訴機器該怎麼做,簡單來說就是,以距離為勢力依據,尋找勢力均衡。


既然是以距離為依據,那麼,我們透過座標資料來理解K-means分群原理,是最為簡單的方式,若有一堆點散落在座標平面,這些點在視覺上顯然構成兩群,若要對這些點自動標記為A、B兩群,由於K-means的假設是「群心勢力範圍內的資料屬於同一群」,首要任務是尋找群心,然而,窮舉出各點間的組合、逐一計算距離,顯然行不通,因為需要的運算過於龐大。


一般而言,K-means尋找群心的方式,是採取最大期望(Expectation-maximization)演算法,先隨機找兩個位置當群心,接著是期望(Expectation)步驟,看其他點距離哪個群心近(通常採取歐式距離),就將該點畫分為與該群心同一群,最後會得到兩群,再接著是最大化(Maximization)步驟,最大化群心與群中各點的距離,針對兩群的資料,各求其幾何中心,作為新群心,也就是每個座標分量的算術平均值(這也就是為何K-means有means 字眼的原因),作為新的群心座標。


如果舊群心與新群心差距太大(未收斂),重複期望步驟與最大化步驟,直到舊群心與新群心變動不大(在某個差距內),或者是超過了指定的迭代次數而結束。以方才兩群座標為例,若能順利收斂,A群資料至A群心的距離,會小於它們至B群心的距離。


以距離加總來衡量群數


直接指定群數依距離分群,是K-means最常的應用之一,特別是透過資料在距離上的區隔,我們可以明顯觀察出一群一群的趨勢時,透過K-means就非常的方便。


座標之間的距離概念容易理解,然而,像分數之類的,也具有距離的概念,像是各學科分數,例如,有人擅長文科、有人擅長理科,此時,若將文科、理科的分數作為資料,可能也會有一群一群的趨勢;另外,像是人與人間的年紀差距、學歷差距、年收入差距、子女差距、居住城市發展指標的差距等,都是具有距離遠近的概念。


有時候手邊的資料,不見得能夠以可視化的方式,來判斷可以分為幾群(特別是高維資料),或者就算能可視化,也看不出群與群之間的分界為何,這時如何能決定該分為幾群呢?


基本上,同一群資料至其群心的距離,應該不會大於至另一群心的距離,既然如此,如果我們將各群資料各自平方距離的加總,應該可以作為分群個數的參考。


空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。


貨櫃屋優勢特性有哪些?

由於貨櫃屋[可移動/施工快速/可組裝、堆疊(延展性高)/可回收/未來擴充便利]等特性,二手貨櫃屋已普遍被應用於展場活動、居家住宅、工業商辦上。

客製專屬滑鼠墊、可愛造型L夾L型資料夾、透明證件套、手提袋,專業印刷設計廠商!

通過SGS環保認證,無毒無害 環保材質符合歐盟RoHs、REACH認證


SMD electronic parts counting machine

累積多年設計生產 Embossed Carrier Tape承載帶的實際經驗,專為電子主、被動零件設計、包裝、製造、改良承載帶、奠定了良好基礎



然而,隨著群數變大,各群平方距離加總必然會變小,為了尋找適當的平方距離加總,我們可以將群數與距離加總可視化為曲線,找出曲線中突然變和緩處的群數,這表示:更多群數終低平方距離加總的效益不大了,而這個方式稱為手肘法(Elbow method)。


另外,群與群之間的輪廓如果是明顯的,重疊的部份理應比較小。事實上,有一種稱為輪廓係數(Silhouette coefficient)的方式,我們可以用來評估群與群間的輪廓,計算方式為b*a/max(a, b),a是群中各點間的平均距離,b是某群中各點與最接近群中各點間的平均距離,而且,輪廓係數越大,分群的品質就越好。


只不過,找出可能的群數後,各群代表的意義,是必須去思考的,例如,給你一堆圖片,若透過手肘法、輪廓係數分析後,認為可以分為十群,那這十群代表什麼呢?如果圖片其實來自MINST手寫數字圖片資料集,能猜出這些圖片分群後代表著十個數字嗎?


也就是說,K-means可以作為一種分析資料的工具,例如,你手中有一組人們的資料,包含了學歷差距、收入差距、年紀、居住縣市(經緯度、離首都的遠近)等,這些資料會不會有某種群聚性呢?分為三個群,合理嗎?還是要四個、五個?如果這些資料能夠分群了,那麼,這些群個別又代表什麼意義呢?政治取向?消費習慣嗎?


以勢力的中心作為代表


使用K-means分群後,群心勢力範圍內的資料屬於同一群,談到勢力範圍,我們可能會直覺地聯想到Voronoi,其中每個細胞的核心,就相當於分群後的群心,細胞邊界規範的勢力範圍,就畫分了資料屬於哪一群,確實!若視覺化後群與群之間有明顯的群聚,透過沃羅諾伊圖(Voronoi Diagram),我們可以畫分出群與群之間的勢力界線。


群心是勢力範圍的幾何中心,是群中資料的平均值,若使用群心來取代該群中每一筆資料,不就可以是一種壓縮資訊的方式?例如,彩色圖片具有RGB三原色,而RGB的資訊可以當成座標資訊、畫在三維空間,相近的色彩在三維空間中,會有距離上的相近,若將之分群,以群心的RGB來作為同群的顏色,就可以減少色彩資訊。


可能的應用之一是,在印刷一張彩色圖片時,只能使用K個顏色,這時透過K-means來分出K群,找出群心的RGB資訊,使用群心顏色填滿同一群,也就是相近的顏色(不是像素座標上的距離相近)最後都變成同一色,最後圖片的顏色會被壓縮K個(不是像素被壓縮為K個)。


從另一方面來看,使用群心來代表該群資料,代表著n筆資料可以被壓縮為K筆資訊,也就是說,K-means某些程度上也可做為一種降維工具。無論是單純地壓縮資訊,或作為降維,K的選擇是直接視需求而定,跟平方距離加總、輪廓係數等的評估就無關了。


其他形狀的勢力範圍


使用K-means,其實,還有另一個假設,那就是:在採取歐氏距離的情況下,就二維來看,勢力範圍基本上是個圓形,三維來看是個球形,圓或球之間會有受到擠壓的界線;然而,資料不見得會群聚為這類形狀,畢竟你應該也看過群聚為橢圓、狹長形狀等的資料。


有種高斯混合模型(Gaussian mixture models)類似K-means,同樣採用最大期望演算,不過,它增加了權重與高斯機率分佈等,來作為資料分群與尋找群心的依據,如此一來,各群的勢力範圍就不會單純是圓或球之類的形狀,甚至可以進行複雜的非線性分群。


綜合來說,K-means的原理雖然簡單,就結果而言是分群沒錯,然而重點在於分析資料是否具備距離的概念,以及分群後各群或群心代表的意義,如此就能衍生出多元化的應用。

https://www.ithome.com.tw/voice/146393


票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻專營:封口機、各式包裝機械、專業製造、全省批發零售



幫你考照過關,堆高機裝卸操作教學影片大公開 !

上千家公司找到最適合的堆高機搬運方案,專業的規劃與完善的售後服務,讓孚克力堆高機與各大知名廠商建立長期合作。


總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。


全自動飲水機與一般飲水機差異在哪?

推薦各種冰溫熱開飲機飲水機:台銀採購契約飲水機、日本進口電解水機系列、落地型飲水機




Orignal From: 畫分勢力範圍的K-means

留言

這個網誌中的熱門文章

中國企業挖山破壞環境 事後竟噴漆「綠化」禿山

摘錄自2019年9月12日自由時報報導 中國河南三門峽山區被人發現遭當地企業噴漆,疑似為躲避衛星偵測,將數十處裸露的山體都被噴上藍綠色漆「綠化」,企圖掩蓋被挖開的荒禿山體,提高植披覆蓋率。 綜合中國媒體報導,河南三門峽一家礦產企業將開挖後的山體噴成了藍綠色,有民眾看不下去,向媒體爆料,用空拍機調查後發現,當地數十處裸山都被如法炮製,消息傳出後引發軒然大波,礦企負責人聲稱,涉事地段山體陡峭裸露,不太好看,噴灑該綠色液體可以防揚塵,而且也不會影響植被的自然恢復。 三門峽生態環境局表示,目前已經介入調查,對調查中發現的問題,將從嚴處理,絕不姑息遷就。 本站聲明:網站內容來源再生能源資訊網https://e-info.org.tw/,如有侵權請聯繫我們,我們將及時處理本站聲明:網站內容來源再生能源資訊網https://e-info.org.tw/,如有侵權請聯繫我們,我們將及時處理【其他文章推薦】 ※專業機台 儀器租賃 服務及相關銷售資訊 ※哪家廠商 儀器租賃 較便宜,可彈性租期? ※ 示波器 鮮為人知的使用技巧? ※高價位跟低價位的 示波器 又有何差異?   Orignal From: 中國企業挖山破壞環境 事後竟噴漆「綠化」禿山

今夏最強的咖啡跑店計畫!「拿鐵衝浪」讓你全台 100+ 限定特調免費喝

記者謝啓楊/綜合報導 全台夏日最強咖啡跑店計劃「2024 拿鐵衝浪」強勢回歸—— 2024 年 6 月 17 日至 7 月 14 日期間,北、中、南上百間精品、手沖咖啡及特色獨立咖啡店讓你免費喝! 由 Flavor 風格美食指南策劃,只要線上購買電子護照,就能到全台咖啡廳免費兌換限定飲品的超好玩「拿鐵衝浪」第二屆回來了,不只匯集了全台破百家人氣咖啡名店,更帶來許多不可錯過的精緻限定品。 參展品牌:Cactus Bar|Oreo affogato 全台百間名店,等你探索 第二屆拿鐵衝浪,除了第一屆的好評名店以外,更引入了許多具有話題性的咖啡廳,包含在永康街立足十餘年的「YABOO café 鴉埠咖啡」,公平貿易咖啡品牌「OKOGREEN 生態綠」、台中柳川水岸邊「孔雀咖啡」、以空間、體驗聞名的藝文品牌「blank plan 留白計畫」、致力於與農民合作,並持續推崇永續的「BVOFE COFFEE」、曾入選台灣最棒 25 間咖啡館的「Coffee Stopover」和「GABEE.」等,上百間店攜手新加坡人氣燕麥奶品牌 OATSIDE 以及億滋國際(Mondelēz International)旗下知名零食 OREO,由來自全台的咖啡專家帶領各位「跑咖」達人品嚐咖啡的風味奧秘。 參展品牌:Coffee Stopover 咖啡好喝,咖啡廳更好看,還有眾多美食與甜點! 說到咖啡,令人期待的不只有醇香飲品,還有每家店家特有的室內設計及陳設!本屆拿鐵衝浪一樣要帶大家走進全台幾家最新潮的咖啡廳! 「留白計畫」為台灣知名專注在營造體驗空間的品牌,致力於為消費者打造沈浸式的咖啡體驗,本次旗下新創新餐飲品牌——台南「褐 umber」及林口藝文體驗空間「胚 pae venue」,將與各位咖啡迷見面;另外,從一台「電車車廂」起家的神秘咖啡廳「Tram Coffee」,結合咖啡、調酒以及預約制英倫紳士理髮,頗有復古風情,在台灣也能享受出國的美好。 參展品牌:初 CHU BAKERY 好評加碼,體驗版輕量拿鐵護照限時開賣! 延續第一屆萬人參與的好口碑,第二屆「拿鐵衝浪」更加碼推出百元輕量版,只要 NT. 110 元就可以獲得兩張特調兌換券。 2024 拿鐵衝浪 ▍活動日期:2024 年 06 月 17 日至  2024 年 07 月 14 日

鋼管雙雄 6月盤價齊降

受上游鋼廠中鋼(2002)、中鴻(2014)降價影響,鋼管雙雄美亞(2020)、高興昌(2008)26日宣布,全面調降6月黑鋼管、鍍鋅鋼管及錏板管等產品內銷價格,每公噸降600~1,200元,其中,美亞黑鋼管降幅大於高興昌。 此外,受惠於美國頁岩油開發油井增多與API鋼管需求轉強,高興昌、中鴻近來接單暢旺,其中,高興昌接單能見度到達年底,單月訂單量增為1,500公噸;中鴻單月產銷量都達到7,000~8,000公噸,較去年訂單量大幅成長,讓市場氣氛由「會悲哀」,轉為「不會悲哀」。 美亞經過近一周的內部討論與評估,26日決定,6月黑鋼管產品每公噸調降1,200元,鍍鋅鋼管每公噸降600元、降幅2%左右,錏板管每公噸降600元,以反映上游鋼廠調降熱軋等相關產品原料價格。 對於6月接單目標量與市場前景,美亞業務副總吳倫吉表示,以目前需求較差的市場,6月接單目標量到底多少,仍需要視客戶對於新價格能否接受而定。至於後市前景,也需要看大陸疫情能否儘快解封,只要解封,需求就會釋出,但對於印度提高出口關稅一事,對市場的效益推升仍需要觀察。 信泰電機生產製作:鋁殼電阻、繞線電阻、 剎車電阻、 煞車電阻 、大功率電阻、 回升電阻 、 回昇電阻 、平衡電阻、陶瓷電阻、模擬負載、大功率繞線電阻器製造、燒機設備規劃及施工、變壓器及電抗器製造、自動控制器材零組件買賣、DC電源供應器製造、電子零組件製造業。 金誠貨櫃實業社 以客為尊,客製化的設計與服務搭配專業的工班,能夠提供全方位的 貨櫃屋 組合方案、 貨櫃屋改裝 及裝潢設計配合您的需求打造出一個完善的居住空間 各大百貨每波促銷贈品活動,限量知名LOGO L型資料夾 ,獨家販售中!! L型文件夾是市面上最常見到的收納文具,有多層與各種厚度可選擇,也可客製化製作專屬自己的尺寸 空壓機 這裡買最划算!晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。 建南和著重於 工業用機械手臂 、工業型 無線充電裝置 、精密加工元件等產品之經銷、代理、進出口貿易 高興昌也決定,6月黑鋼管每公噸降900元,鍍鋅鋼管每公噸降600元,無螺紋電線管每公噸降900元,以反映原料成本。 高興昌表示,上述各項產品目前接單穩定,單月銷量達到2,400~2,500公噸左右,但外銷北美的API鋼管接單暢旺,目