2017-08-25 66 views
0

我想評價獅身人面像索引中最常用的單詞。我發現它的唯一方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000。但是這種方法不考慮形態。一個詞以不同的形式計爲幾個詞。也許有另一種方法來計數所有索引的單詞嗎?獅身人面像可以使用形態學統計其索引中的所有單詞嗎?

+0

你試過'indextool --dumpdict'?提供了一個dict =關鍵字索引認爲它會有所幫助。 – barryhunter

+0

我試圖轉儲,但無論如何不使用形態學形式。 –

+0

你確定嗎?我認爲它必須。因爲只有變形版本存儲在索引中。它需要是morthed版本,以便關鍵字非常匹配。 dumpdict正在傾銷索引中的實際字典! - 只檢查了我的一個索引,它包含'bridg,2738,6794,11805033' - 但是這是'規範化'版本。這個詞本身並不存在 – barryhunter

回答

1

正如評論中指出的那樣,可以使用indextool --dumpdict - 這應該從索引中提供單詞計數。因爲它來自索引,它已經按照charset_table,wordforms,甚至形態學被「規範化」了。

(但只適用於一個dict=keywords指數)