2012-04-27 49 views
1

我必須解析HTML文件,它可以達到500 000個鏈接。 其中40萬是我所需要的。Python大名單和數據庫輸入

我應該將滿足新列表條件的所有鏈接,然後將此列表中的元素放入數據庫中。

或者當我找到鏈接來滿足條件將其添加到數據庫(sqlite)(並提交它)。 大量提交不是問題嗎?

我不想在失敗的情況下丟失數據,如電源。這就是爲什麼我想插入到數據庫後提交。

如何最好地在數據庫中放置大量的項目?

回答

4

只考慮做每1000條記錄提交後左右

1

如果這些環節多在幾個文件傳播,處理每個文件之後提交有關呢?那麼你也可以記住你已經處理了哪些文件。

對於單個文件的情況,請在每次提交後記錄文件偏移以保持整個連續。

0

你可以嘗試使用像mongo這樣的noSQL數據庫。有了mongo,我添加了500.000個文檔,每個文檔增加了大約15秒(在我的舊筆記本電腦上)中的6個字段,在不困難的查詢中大約爲0.023秒。