獅身人面像可以使用形態學統計其索引中的所有單詞嗎？

我想評價獅身人面像索引中最常用的單詞。我發現它的唯一方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000。但是這種方法不考慮形態。一個詞以不同的形式計爲幾個詞。也許有另一種方法來計數所有索引的單詞嗎？獅身人面像可以使用形態學統計其索引中的所有單詞嗎？

來源

2017-08-25 abr_stackoverflow

你試過'indextool --dumpdict'？提供了一個dict =關鍵字索引認爲它會有所幫助。 – barryhunter

我試圖轉儲，但無論如何不使用形態學形式。 –

你確定嗎？我認爲它必須。因爲只有變形版本存儲在索引中。它需要是morthed版本，以便關鍵字非常匹配。 dumpdict正在傾銷索引中的實際字典！ - 只檢查了我的一個索引，它包含'bridg，2738,6794,11805033' - 但是這是'規範化'版本。這個詞本身並不存在 – barryhunter

正如評論中指出的那樣，可以使用indextool --dumpdict - 這應該從索引中提供單詞計數。因爲它來自索引，它已經按照charset_table，wordforms，甚至形態學被「規範化」了。

（但只適用於一個dict=keywords指數）

來源

2017-08-29 12:45:34 barryhunter

獅身人面像可以使用形態學統計其索引中的所有單詞嗎？

回答

相關問題