2010-02-17 55 views
3

我如何讓獅身人面像識別「汽車」和「汽車」爲類似的詞?獅身人面像和字形

讓我們的形象,我有三個數據庫記錄

Andy likes to drive auto. 
Mary don't like to drive car. 
Bob is going to buy automobile. 

下面是示例查詢,它的結果...

query: car 
result: Mary don't like to drive car. 
------------------------------------- 
query: auto 
result: Andy likes to drive auto. 
------------------------------------- 
query: automobile 
Bob is going to buy automobile. 

..但我想獅身人面像回...

query: car 
result: 
Andy likes to drive auto. 
Mary don't like to drive car. 
Bob is going to buy automobile. 
------------------------------------- 
query: auto 
result: 
Andy likes to drive auto. 
Mary don't like to drive car. 
Bob is going to buy automobile. 
------------------------------------- 
query: automobile 
result: 
Andy likes to drive auto. 
Mary don't like to drive car. 
Bob is going to buy automobile. 

我知道獅身人面像有stowords,但是我應該把什麼東西放進stopwords字典來讓獅身人面像這樣思考?

謝謝。

+0

小觀察...我想你的意思是把'瑪麗不喜歡開車'。作爲「汽車」查詢下的第一個結果。 – ServAce85

回答

4

您所要做的就是在.conf文件中爲sphinx提供一個正確格式的wordforms文本文件。

文檔在這裏找到:http://www.sphinxsearch.com/docs/manual-0.9.9.html#conf-wordforms

auto > car 
automobile > car 
four-wheeled-vehicle-intended-for-public-roads > car 
cars > car 
+0

是的,我已經檢查過關於wordforms的手冊。但我不明白我應該怎麼做才能將這些詞語等同起來。我應該把汽車>汽車,汽車>汽車,汽車>汽車,汽車>汽車,汽車>汽車,汽車>汽車?或者更簡單一些?謝謝。 – Kirzilla

+1

的語法是[考慮這個詞]> [as this word]。正如我試圖在我的示例代碼中演示的那樣,您希望使用汽車作爲每個其他單詞的形式,以便它們都等同於獅身人面像。請記住,詞幹不是對字形執行的,因此必須明確指定複數等。 –

+0

我已經在http://sphinxsearch.com/forum/view.html?id=5134上提出了同樣的問題,並且您已經同意回答。 :) – Kirzilla

0

讓我給你一個詞形等形態,術語「齒輪」和「槓桿」,因爲這些話是在金融平等的條件和應被視爲同義詞爲例(這兩個詞的含義是「財務槓桿」)。

本來你的「wordforms.txt」文件應包含他們列出如下:

gear > gear 
geared > gear 
gearing > gear 
gears > gear 
…… 
leverage > leverage 
leveraged > leverage 
leverages > leverage 
leveraging > leverage 

這意味着,原來這兩個詞沒有連接。爲了解決這個問題,你應該這樣修改「wordforms.txt」的內容:

gear > leverage 
geared > leverage 
gearing > leverage 
gears > leverage 
…… 
leveraged > leverage 
leverages > leverage 
leveraging > leverage 

這個編輯連接他們(及其所有的表單)。編輯「wordforms.txt」文件後,您必須保存它並重新索引索引以應用更改。

現在,當您搜索「齒輪」或「槓桿」時,您的結果將包含單詞及其所有形態形式。