fastText可以將Word轉成Vector,供機器學習輸入使用。轉成Vector 也還能保留類推性及語意關係。
fastText的轉換指令如下(使用skipgram model):
./fasttext skipgram -input data/fil9 -output result/fil9
轉換過程花了很久時間,機器是用Devbox10,文本檔案是681MB,感覺效率不是很好。
輸出的 fil9.vec檔案包含每個字的向量,如下範例:
the 0.052022 -0.062025 -0.0061274 0.10942 ....
-------------------------------------------------
除了skipgram,還有CBOW (Continuous-Bag-Of-Words) model。skipgram在預測時,是隨機選一個靠近的字來看目標字的機率; 而CBOW預測時是用固定範圍內、週圍的字來預測目標。如下圖:
沒有留言:
張貼留言