0
我想知道如果在構建倒排索引時在搜索引擎中選擇基詞的規則。我知道一般停用詞不會被索引。但是其他人呢?我很困惑... 在此先感謝。搜索引擎中的基礎詞
我想知道如果在構建倒排索引時在搜索引擎中選擇基詞的規則。我知道一般停用詞不會被索引。但是其他人呢?我很困惑... 在此先感謝。搜索引擎中的基礎詞
你的意思是干擾?一些搜索引擎使用它。這意味着所有單詞都被截斷,因此walk
,walks
,0 walked
和walking
將全部索引爲walk
。運行搜索之前,查詢也一樣。它會導致更多的點擊,因爲walking in the woods
的搜索也將加快「一個walk in the woods
」。
不只是阻止。我的意思是我們無法索引網頁中的每一個詞,因爲它太大了,對吧?那麼哪些詞應該被索引,哪些詞應該被忽略?有一個共同的規則嗎? – ray6080
搜索模塊*會爲每個文檔中的每個文檔編制索引。有壓縮技術可以減少所需的硬盤空間,但這些二進制索引迅速增長。我認爲每個搜索引擎運營商都有自己的規則,有經驗的排除。例如,如果我必須自己設計一個搜索引擎,我會排除從OCR讀取的文檔中永遠不會出現超過一次的字符串,但那只是我自己的決定。我也知道一個搜索引擎,它只搜索那些屬於有效句子的單詞。但是沒有_general_規則。 – Paramaeleon
我看...謝謝。 – ray6080