我正在創建一個用於從多個URL中獲取鏈接的工具。我想存儲這些信息,然後測試他們的狀態。我期望不得不測試大量的鏈接,大約60,000。所以我的問題是決定如何存儲要測試的鏈接。以Java存儲數據。文本文件,csv或其他方法?
我想要做的是爲我要刮的URL創建文本文件。我將不得不爲約40個文本文件創建我將要抓取的URL(我所抓取的URL是相同的URL,只是區域化的)。
- 創建大量文本文件會導致性能問題嗎?
- 我會最好將網址存儲在一個數組中,然後將 數組寫入文本文件,或者我應該只是將文本的URL寫入文本 文件嗎?或者,還有更好的方法?
- 有沒有比存儲在文本文件更好的方法? (我真的不 想使用一個數據庫,但如果有一個很好的情況下它,我可能是 相信)
爲什麼你需要存儲它們?如何存儲將被使用?您是否考慮過小型數據庫引擎,例如SQLite? – 2012-04-20 12:42:27
它不是完全必要的。我對編程相當陌生,我在想,如果我要將數據存儲在數組中,那麼需要使用很多內存,從而導致性能問題?在數組中存儲如此多的信息串會使用大量的內存嗎? – Peck3277 2012-04-20 13:02:09
Java使用UTF-16,每個字符大約2個字節。猜測每個URL 200個字符,你會得到:60000 * 200 * 2 = 24 MB。應該很容易適應RAM。 – 2012-04-20 16:04:22