2017-04-18 31 views
0

我想知道爲什麼用wiki(韓語)預訓練的'fasttext模型'似乎不能很好地工作! :(爲什麼預訓練fasttex模型的cosine_similarity在兩個參數之間很高並不相對?

模型= fasttext.load_model( 「./ fasttext/wiki.ko.bin 」)

model.cosine_similarity(「 테스트테스트이건테스트문장」, 「지금아무관계없는글정말로정말로」)

(英文) model.cosine_similarity( 「測試的測試,這是測試句」, 「現在不是所有的親戚文檔真的真的」)

0.99 .... ?? 這些句子是不在所有相對意義上,所以我認爲餘弦但是它是0.997383 ...

是不是將單獨的參數與fasttext進行比較是不可能的? 那麼只有這樣才能使用doc2vec?

回答

0

您正在使用哪個'fasttext'代碼包?

你確定它的cosine_similarity()被設計爲採取這樣的原始字符串,並自動標記/結合每個例子的話來給出句子級別的相似之處嗎? (它的文檔或說明性示例暗示了這種能力嗎?或者它是否預期了預先標記的單詞列表?)

相關問題