我想提一下我的小項目,如果我正常運行。我需要使用Medline的所有文章(http://www.nlm.nih.gov/bsd/licensee/2011_stats/baseline_doc.html)。對於那些不熟悉Medline數據庫的人,我添加一些信息:使用python和mongoDB索引20M記錄
- 大約有20.000.000條記錄(83.4 GB磁盤空間),每條記錄都有很多字段和子字段。
- 您可以下載此數據庫(帶有許可證)的XML格式。
- 這些20M記錄分佈在653個文件中。
- 每個文件都有一個MedlineCitationSet,這是一組記錄(MedlineCitation's)。
我想處理這些記錄,並獲得信息,如標題,摘要...然後我想這些文件(或記錄)與python和mongodb索引。我有一個選項:
我已經創建了一個medline解析器,併爲每個記錄創建了一個mongoDB的JSON條目,並通過pubmedID建立索引之後。然後我可以創建一個函數,如get_abstract('pubmedID'):string。
我的問題是:
- 這是個好主意嗎? (XML解析 - > JSON - >插入和索引!)
- 我可以使用GridFS並獲取與每個文件的記錄相對應的塊嗎?怎麼樣?
- 你知道嗎?
是否行得通?那很好。你有問題嗎?如果是這樣,請提供您遇到的實際問題。這聽起來像你真正的問題很簡單 - 如何使用GridFS。也許你應該專注於你需要的具體幫助。 「你知道另一種方式」是一個愚蠢的問題,有無數其他方式,其中大多數是一個壞主意。 – 2011-05-03 12:24:24
謝謝S.Lott!是的,我的exatc問題是,我如何將GridFS和Medline文件結合起來? 。 – 2011-05-03 13:01:31
我的XML2JSON解析器有問題,因爲這個XML不是微不足道的,我不知道GridFS是否可以幫助我...... – 2011-05-03 14:06:36