2013-08-24 99 views
2

我試圖在谷歌之後的空閒時間開發一個搜索引擎。谷歌正向指數實施

我使用這裏列出的原谷歌的研究論文:http://infolab.stanford.edu/~backrub/google.html但是我在這裏有幾個問題

。確切地說,我在開發前向索引時遇到了問題。

在它說的文件:

如果文檔中包含落入特定桶也就是說,docID將被記錄入桶,隨後的wordID的與對應於那些話hitlists列表。

現在在這個聲明中有兩個問題。首先誰決定從巨大的詞彙中的哪些詞彙進入前進桶?他們都去了。其次是相應單詞的含義。這是否意味着在上一個單詞或其他內容之後實際出現在該文檔中的單詞?

我對搜索引擎真的很陌生,並且非常感謝任何信息翻錄專家幫助我解決這個問題。如果版主認爲這個問題屬於其他的Stack Exchange站點,請這樣做。

回答

0

第一個問題: 每個單詞的字符串值被映射爲一個整數(通過散列函數)。這是因爲整數比字符串處理起來要容易得多。然後,您可以通過這些整數值來定義範圍(桶或桶或任何其他您可能想要調用它們的值),例如,

  • 術語ID 0到1000 =>濱1
  • 術語IDS 1001年至2000年=>濱2 等。

第二個問題: 通常不使用上下文信息。一個單詞只是一個文檔中的術語,例如術語「the」,「quick」,「brown」等。

既然你說你是IR的新手,那麼開始的一個好方法就是閱讀IR的入門書,例如Manning和Schutze的書。