2019年12月20日 星期五

離群資料

當要分析公司內部進出記錄時,我們並不了解每個欄及每個值的意思,例如我們不知道不同部門之間的關聯、不知道部門這個欄名是否和我們認知是一樣(它可能是一道門),使得我們在宣告向量空間,把每個部門編號進feature vector,vector的距離並沒有任何意義,例如部門1和部門2的向量距離比部門1到部門3短,對我們沒有幫助。

因為對我們真正有意義的是,該列資料的部門和其它列資料有沒有一樣,故當我們宣告一個向量空間要去找離群資料時,並不是直接算向量距離,而是直接用0或1代表距離,0表同一格,1表不同格。



如下圖,最下面的紅色離群資料點和上方其它資料點,在這個維度(高度)的距離都是1,無論是在最上面的格子或最下面。

沒有留言:

張貼留言

IKEA吊櫃廚櫃

 好不容易裝好IKEA買來的吊櫃,花了三天。 從組裝,鑽牆,上牆調水平,累死我了。