我有一個龐大的論壇數據庫。爲了NLP的目的,我需要從數據庫中提取語料庫。提取步驟具有參數(例如FTS查詢),並且我希望將帶參數元數據的語料庫保存在文件系統上。使用python序列化語料庫
一些語料庫會有幾十兆字節大。使用元數據保存文件的最佳方式是什麼,這樣我就可以讀取元數據而無需加載整個文件。
我正在使用以下可能相關的技術:PyQt,Postgres,Python,NLTK。
一些注意事項:
- 我想語料庫從一個重量級的數據庫離婚。
- 我不想使用sqlite,因爲元數據結構非常簡單。
- 酸洗不允許我可以告訴的部分非序列化。
- 我不希望有一個單獨的元數據文件。
- 我有協議緩衝區的經驗,但又似乎太過重。
我想我可以pickle元數據字符串,並有文件的第一行代表元數據。這似乎是我認爲最簡單的方式。也就是說,如果pickle格式是ASCII安全的。
是的,默認(0)協議的pickle格式是ASCII安全的。 – 2012-08-05 15:46:53
是否有太多元數據存儲在文件路徑中? – 2012-08-06 19:27:10
目前不在,但它不是一個面向未來的解決方案。 – 2012-08-07 15:57:58