large-files

1熱度

1回答

我一直在研究這個問題，只有很小的成功，所以我來這裏得到一些新的建議。我試圖將每次掃描的數據提取到單獨的文件中。問題是，在創建3196個文件後，我收到錯誤消息：awk「使得打開的文件太多」。我知道我需要關閉由awk創建的文件，但我不知道該怎麼做。文本inputfile中是這樣看（最多80個000掃描）： Scan 1 11111 111 22222 221 ... Scan 2 1

0熱度

1回答

用低內存低資源處理python中的大數據文件，使用Python/ODBC從SQLserver數據庫在本地PC上創建大型數據文件

我對Python很新穎。在我們公司，我們使用Base SAS進行數據分析（ETL，EDA，基本模型構建）。我們想檢查是否可以用大塊數據替換它。對此，我有以下幾個問題： python如何處理大文件？我的電腦有8GB的RAM，我有一個30GB的平面文件（比如csv文件）。我通常會在這樣的文件上執行諸如左連接，刪除，分組等操作。這在SAS中很容易實現，即我不必擔心內存不足。 python中可以執行相同

14熱度

3回答

我需要一個100 + MB的測試圖像

我正在測試我正在處理的應用程序的大小限制。我需要一個大於100MB的測試圖像。我很難找到一個像在線圖像往往是比這更小。有沒有人知道測試文件的來源，或者有我可以使用的非常大的圖像？

0熱度

1回答

Git無法在分支中找到文件，但不會提交，因爲文件太大

問題：我有一個git分支，我試圖推送到遠程。推送失敗，出現以下消息： Writing objects: 100% (881/881), 31.27 MiB | 821.00 KiB/s, done. Total 881 (delta 691), reused 0 (delta 0) remote: warning: File one.pickle is 79.43 MB; this is la

1熱度

1回答

需要Java建議來處理無索引文件中存在的數十億條記錄

我有4個大的.tab文件，其中一個是6GB，其他是10GB。 6GB文件包含有關某個地區的動物的信息，其他3個文件包含與6GB文件中每個動物相關的其他重要信息。我需要編寫一個程序，根據某些用戶輸入從這些大文件生成小數據集。我從6GB文件一行一行地讀取動物的數據，如果它們通過了某些標準，它們被存儲在一個ArrayList中，否則省略。現在對於ArrayList中的每個動物，我需要一遍又一遍地遍

2熱度

1回答

在讀取大量文件或lmdb時禁用python文件緩存

我的代碼在具有100GB內存的羣集節點上的CentOS 6.6上運行。但是，這似乎仍然不夠大，因爲我的代碼需要讀取1000個以上的hickle文件（每個200MB）。這完全是240GB。代碼運行時，系統內存高速緩存不斷增加，直到完成，並且在分配新對象和進行numpy數組計算時，代碼性能變得非常慢。我試圖做GC.Collect的和德爾，以防止任何內存泄露，但記憶還在不斷增加。我懷疑這是由於文件緩存

0熱度

1回答

如何從龐大的數據文件中提取特定的行？

我有一個非常大的數據文件，大約32GB。該文件由大約130k行構成，每行主要包含數字，但字符也很少。我需要執行的任務非常清晰：我必須提取20行並將它們寫入新的文本文件。我知道我想要複製的20行中每一行的確切行號。所以問題是：如何從大文件中提取特定行號的內容？我在Windows上。有沒有可以做這種操作的工具，或者我需要編寫一些代碼？如果沒有直接的方法做這件事，我一直在想，一種可能的方法是首先

0熱度

1回答

PHP將JSON/CSV與SQL數據庫相匹配（cakePHP）

我想使用cakePHP框架將JSON文件（也可以CSV格式）插入到mySQL數據庫中。基本要求很明確，但周圍的要求很難： JSON/CSV文件很大（大約200 MB，最多200.000行）。該文件包含幾個字段。這些字段需要映射到mySQL數據庫中具有不同名稱的字段。該CSV包含一個名爲art_number的字段。該字段也存在於mySQL數據庫中。 art_number是唯一的，但不是mySQL

2熱度

3回答

打開大型CSV文件？

我有一個文件，我需要導入到MS-SQL數據庫，但我無法打開它，因爲我的電腦只有4 Gig的RAM ..我通常使用CSV分割器來縮小大文件，但它是不工作的文件（155場演出）誰能告訴我一個方法來處理這個文件導入到數據庫中（除了購買新電腦更好的硬件）謝謝

0熱度

1回答

如何對30gb文件進行排序重複有1至1000個數字

我有30個gb文件，其中只有1至1000個數字是重複的。我想知道如何對文件進行排序，並且需要先將文件加載到內存中。我已經通過其他的鏈接，但不同意排序多個文件塊並將其保存在臨時文件中。正如我相信在流程結束時，我將剩下兩個大文件（每個15 GB）進行排序。我無法加載每個合併和排序。有什麼建議嗎？