large-files

    1熱度

    1回答

    我一直在研究這個問題,只有很小的成功,所以我來這裏得到一些新的建議。 我試圖將每次掃描的數據提取到單獨的文件中。 問題是,在創建3196個文件後,我收到錯誤消息:awk「使得打開的文件太多」。 我知道我需要關閉由awk創建的文件,但我不知道該怎麼做。 文本inputfile中是這樣看(最多80個000掃描): Scan 1 11111 111 22222 221 ... Scan 2 1

    0熱度

    1回答

    我對Python很新穎。 在我們公司,我們使用Base SAS進行數據分析(ETL,EDA,基本模型構建)。我們想檢查是否可以用大塊數據替換它。對此,我有以下幾個問題: python如何處理大文件?我的電腦有8GB的RAM,我有一個30GB的平面文件(比如csv文件)。我通常會在這樣的文件上執行諸如左連接,刪除,分組等操作。這在SAS中很容易實現,即我不必擔心內存不足。 python中可以執行相同

    14熱度

    3回答

    我正在測試我正在處理的應用程序的大小限制。我需要一個大於100MB的測試圖像。我很難找到一個像在線圖像往往是比這更小。有沒有人知道測試文件的來源,或者有我可以使用的非常大的圖像?

    0熱度

    1回答

    問題:我有一個git分支,我試圖推送到遠程。推送失敗,出現以下消息: Writing objects: 100% (881/881), 31.27 MiB | 821.00 KiB/s, done. Total 881 (delta 691), reused 0 (delta 0) remote: warning: File one.pickle is 79.43 MB; this is la

    1熱度

    1回答

    我有4個大的.tab文件,其中一個是6GB,其他是10GB。 6GB文件包含有關某個地區的動物的信息,其他3個文件包含與6GB文件中每個動物相關的其他重要信息。 我需要編寫一個程序,根據某些用戶輸入從這些大文件生成小數據集。 我從6GB文件一行一行地讀取動物的數據,如果它們通過了某些標準,它們被存儲在一個ArrayList中,否則省略。 現在對於ArrayList中的每個動物,我需要一遍又一遍地遍

    2熱度

    1回答

    我的代碼在具有100GB內存的羣集節點上的CentOS 6.6上運行。但是,這似乎仍然不夠大,因爲我的代碼需要讀取1000個以上的hickle文件(每個200MB)。這完全是240GB。代碼運行時,系統內存高速緩存不斷增加,直到完成,並且在分配新對象和進行numpy數組計算時,代碼性能變得非常慢。 我試圖做GC.Collect的和德爾,以防止任何內存泄露,但記憶還在不斷增加。我懷疑這是由於文件緩存

    0熱度

    1回答

    我有一個非常大的數據文件,大約32GB。該文件由大約130k行構成,每行主要包含數字,但字符也很少。 我需要執行的任務非常清晰:我必須提取20行並將它們寫入新的文本文件。 我知道我想要複製的20行中每一行的確切行號。 所以問題是:如何從大文件中提取特定行號的內容?我在Windows上。有沒有可以做這種操作的工具,或者我需要編寫一些代碼? 如果沒有直接的方法做這件事,我一直在想,一種可能的方法是首先

    0熱度

    1回答

    我想使用cakePHP框架將JSON文件(也可以CSV格式)插入到mySQL數據庫中。基本要求很明確,但周圍的要求很難: JSON/CSV文件很大(大約200 MB,最多200.000行)。 該文件包含幾個字段。這些字段需要映射到mySQL數據庫中具有不同名稱的字段。 該CSV包含一個名爲art_number的字段。該字段也存在於mySQL數據庫中。 art_number是唯一的,但不是mySQL

    2熱度

    3回答

    我有一個文件,我需要導入到MS-SQL數據庫,但我無法打開它,因爲我的電腦只有4 Gig的RAM ..我通常使用CSV分割器來縮小大文件,但它是不工作的文件(155場演出) 誰能告訴我一個方法來處理這個文件導入到數據庫中(除了購買新電腦更好的硬件) 謝謝

    0熱度

    1回答

    我有30個gb文件,其中只有1至1000個數字是重複的。我想知道如何對文件進行排序,並且需要先將文件加載到內存中。 我已經通過其他的鏈接,但不同意排序多個文件塊並將其保存在臨時文件中。正如我相信在流程結束時,我將剩下兩個大文件(每個15 GB)進行排序。我無法加載每個合併和排序。 有什麼建議嗎?