我試圖在谷歌之後的空閒時間開發一個搜索引擎。谷歌正向指數實施
我使用這裏列出的原谷歌的研究論文:http://infolab.stanford.edu/~backrub/google.html但是我在這裏有幾個問題
。確切地說,我在開發前向索引時遇到了問題。
在它說的文件:
如果文檔中包含落入特定桶也就是說,docID將被記錄入桶,隨後的wordID的與對應於那些話hitlists列表。
現在在這個聲明中有兩個問題。首先誰決定從巨大的詞彙中的哪些詞彙進入前進桶?他們都去了。其次是相應單詞的含義。這是否意味着在上一個單詞或其他內容之後實際出現在該文檔中的單詞?
我對搜索引擎真的很陌生,並且非常感謝任何信息翻錄專家幫助我解決這個問題。如果版主認爲這個問題屬於其他的Stack Exchange站點,請這樣做。