2019年12月20日 星期五

fastText - Word representation

fastText可以將Word轉成Vector,供機器學習輸入使用。轉成Vector 也還能保留類推性及語意關係。

fastText的轉換指令如下(使用skipgram model):

./fasttext skipgram -input data/fil9 -output result/fil9


轉換過程花了很久時間,機器是用Devbox10,文本檔案是681MB,感覺效率不是很好。

輸出的 fil9.vec檔案包含每個字的向量,如下範例:


the 0.052022 -0.062025 -0.0061274 0.10942 ....

-------------------------------------------------

除了skipgram,還有CBOW (Continuous-Bag-Of-Words) model。skipgram在預測時,是隨機選一個靠近的字來看目標字的機率; 而CBOW預測時是用固定範圍內、週圍的字來預測目標。如下圖:














沒有留言:

張貼留言

IKEA吊櫃廚櫃

 好不容易裝好IKEA買來的吊櫃,花了三天。 從組裝,鑽牆,上牆調水平,累死我了。