我正在用Python編寫一個webcrawler,它將大量頁面的HTML代碼存儲在MySQL數據庫中。在開始處理數據之前,我想確保我的存儲和處理方法是最佳的。我想:在MySQL中存儲大量文本的最節省空間的方式是什麼?
最小化在數據庫中使用的存儲空間 - 可能通過縮小HTML代碼,霍夫曼編碼或壓縮的一些其它形式。我想保持全文搜索的可能性 - 我不知道像霍夫曼編碼這樣的壓縮算法是否會允許這樣做。
儘量減少編碼和存儲大量行所需的處理器使用量。
有沒有人有任何建議或經驗在這個或類似的問題? Python是否是最佳語言,因爲它需要大量的HTTP請求和正則表達式以及任何壓縮是最優的?
什麼是壓縮比?我希望能夠使用WHERE子句,但是如果COMPRESS節省了足夠的空間,那麼它可能是值得的。 – MarathonStudios
@MarathonStudios - 我不知道HTML的典型壓縮是什麼。它取決於實際的內容和壓縮庫鏈接到您正在使用的特定MySQL安裝。我可以建議的唯一事情就是試驗。 –