2016-09-22 21 views
4

我是新來Syntaxnet我試圖通過指令hereSyntaxnet土耳其語數據集不存在地圖文件

點-1使用土耳其語的預先訓練模式:雖然我設置MODEL_DIRECTORY環境變量,tokenize.sh沒有找到相關的路徑,並提示錯誤象下面這樣:

[email protected]:/opt/tensorflow/models/syntaxnet# echo "Eray eve geldi." | syntaxnet/models/parsey_universal/tokenize.sh 
F syntaxnet/term_frequency_map.cc:62] Check failed: ::tensorflow::Status::OK() == (tensorflow::Env::Default()->NewRandomAccessFile(filename, &file)) (OK vs. **Not found: label-map**) 

點2:所以,我通過評論1 MODEL_DIR = $改變了tokenize.sh並設置我的土耳其語模型路徑如下所示去:

PARSER_EVAL=bazel-bin/syntaxnet/parser_eval 
CONTEXT=syntaxnet/models/parsey_universal/context.pbtxt 
INPUT_FORMAT=stdin-untoken 
MODEL_DIR=$1 
MODEL_DIR=syntaxnet/models/etiya-smart-tr 

點3:後,當我運行它告訴,它提供了錯誤象下面這樣:

[email protected]:/opt/tensorflow/models/syntaxnet# echo "Eray eve geldi" | syntaxnet/models/parsey_universal/tokenize.sh 
I syntaxnet/term_frequency_map.cc:101] Loaded 29 terms from syntaxnet/models/etiya-smart-tr/label-map. 
I syntaxnet/embedding_feature_extractor.cc:35] Features: input.char input(-1).char input(1).char; input.digit input(-1).digit input(1).digit; input.punctuation-amount input(-1).punctuation-amount input(1).punctuation-amount 
I syntaxnet/embedding_feature_extractor.cc:36] Embedding names: chars;digits;puncts 
I syntaxnet/embedding_feature_extractor.cc:37] Embedding dims: 16;16;16 
F syntaxnet/term_frequency_map.cc:62] Check failed: ::tensorflow::Status::OK() == (tensorflow::Env::Default()->NewRandomAccessFile(filename, &file)) (OK vs. **Not found: syntaxnet/models/etiya-smart-tr/char-map**) 

我已通過跟蹤鏈接模式指示下載的土耳其包像download.tensorflow.org/models/parsey_universal/.zip 和我的語言映射文件列表如下圖所示:

  • -rw-r ----- 1 root root 50646 Sep 22 07:24 char-ngram-map

    -rw-r ----- 1 root root 329 Sep 22 07:24 label-map

    -rw-R ----- 1個根133477 09月22日7時24變形標籤集

    -rw-R ----- 1根根5553526 09月22日7時24 morpher- PARAMS

    -rw-R ----- 1根根1810年09月22 7點24形態映射

    -rw-R ----- 1根根10921546 09月22日7時24 parser- params

    -rw-R ----- 1個根39990 09月22日7時24分前綴表

    -rw-R ----- 1根根28958 09月22日7時24分後綴表

    -rw-R ----- 1個根561年09月22 7點24標籤映射

    -rw-R ----- 1根根5234212 09月22日7時24標記器-PARAMS

    -rw-R ----- 1個根172869 09月22日7時24字地圖

問題-1: 我知道目錄中沒有char-map文件,所以我得到了上面寫的@ Point-3錯誤。那麼,有沒有人對如何進行土耳其語測試有意見,並將結果分享爲%93,363作爲詞類比如?

問題-2: 如何找到土耳其語的char-map文件?

問題-3: 如果沒有字符映射文件,我必須通過訓練追查表示爲SyntaxNet's Obtain Data & Training步驟?

問題-4: 有沒有一種方法來生成字符映射,字符映射...等文件?它是衆所周知的word2vec方法,可以用來生成地圖文件,將能夠處理wt。語法網關標記符?

回答

1

試試這個https://github.com/tensorflow/models/issues/830問題 - 它包含一個(在這個時候)臨時解決方案。

+0

儘管此鏈接可能會回答問題,但最好在此處包含答案的重要部分,並提供供參考的鏈接。如果鏈接頁面更改,則僅鏈接答案可能會失效。 – Marusyk

+0

我無法在此處添加修補程序,因此仍需要外部鏈接。 –

+0

看來,在給定用戶「xtknight」的鏈接寫了解決方案代碼。感謝您分享鏈接。 – ehangul