0
我正試圖創建一個倒排索引。我正在閱讀文本文件的行,文本文件在每行的第一位置有一個文檔的編號docId
,該行的其餘部分包含關於此文檔的關鍵字。 爲了創建一個倒排索引,我首先必須標記這個文本文件。我用我寫的函數做了它,並且我將每個單詞存儲在一個向量中。我唯一的抱怨就是我還將docId
作爲字符串存儲在向量中。這裏是記號化功能的標題,如果你需要它:如何創建倒排索引時,我已經標記了我的文件?
void tokenize(string& s, char c, vector<string>& v)
現在令牌化的文件後,我必須創建使每一個字在一個地圖,我想用一個無序地圖的功能,每個單詞的地圖都會出現一次。我也必須以某種方式在某處存儲單詞的頻率。我認爲使用docId
作爲地圖中的關鍵字是一個好主意,但後來我意識到我只能有一個docId
這會向我顯示該單詞,而在我的文本文件中docId
有多個單詞。
那麼,我該如何解決這個問題?我應該從哪裏開始?
開始寫一些代碼後,你可以得到你所面臨的問題的幫助。也許你還應該提供tokenize()的代碼。順便說一句:必須有一些關於地圖的更多信息!可以肯定的是,聽起來好像這些詞是關鍵詞,但它應該保留哪些價值?也許這可能是特定單詞被找到的次數的計數,例如, 'map' –
4386427
2015-02-11 13:55:10