我正在處理一個基本上監視設置的遠程目錄(FTP,聯網路徑和另一個)的項目,如果該文件被認爲是新的並且符合我們下載並處理它的標準。但是我堅持最好的方式是跟蹤我們已經下載的文件。我不想下載任何重複的文件,所以我需要跟蹤已下載的內容。python的數據持久性當很多查找但很少寫入?
Orignally我是把它作爲一個樹:
server->directory->file_name
當服務關閉它,它寫入一個文件,當它啓動時重新讀取回來。但是,如果有大約20,000個左右的文件開始減速很多,
有沒有更好的方法來做到這一點?
編輯
的查找時間開始放緩了很多,我基本實現是一個字典的字典。在磁盤上存儲的東西很好,或多或少只是查找時間。我知道我可以優化樹並對其進行分區。然而,對於這樣一個小項目來說,這似乎過分了,我希望python會有類似的東西。
如何使用'dict'的'dict'並使用'pickle'將數據序列化/反序列化到磁盤?你有沒有試過這個選項? – 2010-10-24 18:31:54
這就是我所做的事情,但是字典的字典在某個點後開始減慢。當存儲大量文件時。 – UberJumper 2010-10-24 18:32:30
如何使用像sqlite這樣的嵌入式SQL數據庫? Python有它的庫。 – 2010-10-24 18:39:20