2013-04-13 101 views
0

我想知道如果在構建倒排索引時在搜索引擎中選擇基詞的規則。我知道一般停用詞不會被索引。但是其他人呢?我很困惑... 在此先感謝。搜索引擎中的基礎詞

回答

0

你的意思是干擾?一些搜索引擎使用它。這意味着所有單詞都被截斷,因此walk,walks,0 walkedwalking將全部索引爲walk。運行搜索之前,查詢也一樣。它會導致更多的點擊,因爲walking in the woods的搜索也將加快「一個walk in the woods」。

+0

不只是阻止。我的意思是我們無法索引網頁中的每一個詞,因爲它太大了,對吧?那麼哪些詞應該被索引,哪些詞應該被忽略?有一個共同的規則嗎? – ray6080

+0

搜索模塊*會爲每個文檔中的每個文檔編制索引。有壓縮技術可以減少所需的硬盤空間,但這些二進制索引迅速增長。我認爲每個搜索引擎運營商都有自己的規則,有經驗的排除。例如,如果我必須自己設計一個搜索引擎,我會排除從OCR讀取的文檔中永遠不會出現超過一次的字符串,但那只是我自己的決定。我也知道一個搜索引擎,它只搜索那些屬於有效句子的單詞。但是沒有_general_規則。 – Paramaeleon

+0

我看...謝謝。 – ray6080