假設我正在尋找識別文檔的多個頁面(可能大約有500多頁)中某個詞的所有出現次數。我已經完成了發現單詞出現在哪些頁面上的工作。例如,我想列出計算機單詞出現的所有頁面。文檔詞索引數據庫結構?
什麼是最好的方式來存儲這些數據,以便通過網絡服務快速搜索?我的直覺是,只是這樣做:
表結構: VARCHAR(30)WORD,一滴PAGES
而且具有地方發生的話,然後就網頁場是所有頁面的一個逗號分隔的列表當查詢匹配WORD字段時,將其展開並列出所有頁面。我想知道是否有更高效的方法來達到這個目的?我可能會使用MySQL和PHP/Zend,因爲這是我最熟悉的。但如果你有更好的想法,我肯定會開放的聽取他們的意見。
表格可能會變得非常長,因爲我需要爲文檔中的每個獨特單詞添加一行。也許我會設定一個不超過3或4個字符的限制,但我仍然可以想象10萬字以上的字。如果按字母順序排列行列表,可以以某種方式使我的數據庫服務器更容易嗎? (即蘋果,蘋果,分支按升序排列?)MySQL可以處理這個問題嗎?其他的東西可以更好地處理嗎?
最後,有沒有更好的結構模式,可能以後讓我收集/提供有趣的數據? (即給用戶相關的詞經常出現在附近等)
我永遠不會在數據庫中使用CSV。 :)謝謝你的提示! – Emeka 2012-03-16 19:30:54