large-data-volumes

1熱度

2回答

類似的問題正在流逝，我看着所有人。它似乎沒有解決我的問題。 - 更新： - 我想上傳一個文件（PDF，DOC，或其他）使用WCF服務的數據庫。到服務的調用是這樣的： using (var cw = new WCFClientWrapper<ICommonService>()) { cw.Channel.DocumentInsert(content, filename, content

0熱度

3回答

在Java中讀取大量數據

我正在使用Java來讀取和處理來自UCI Machine Learning Repository的一些數據集。我開始爲每個數據集創建一個類並使用特定的類文件。數據集中的每個屬性都由所需類型的類中的相應數據成員表示。這種方法運行良好，直到沒有。屬於< 10-15。我只是增加或減少了該類的數據成員，並將其類型更改爲對新數據集建模。我還對功能進行了必要的更改。問題：現在我必須使用很多大型數據集。擁

0熱度

2回答

如何使用每個循環來幫助加載大型數據集

我想從SSIS中的SQL Server 2008加載大型數據集。但是，Visual Studio一次加載所有內容的速度太慢。然後我決定使用for-each循環來每次只加載表的一部分。 E.g.如果有1000萬條記錄，我希望每次只能載入100萬條記錄，並運行10次以完成處理。我不知道如何使用Foreach Loop組件。是否有其他方法來處理大型數據集？

0熱度

1回答

使用OR和HAVING與使用和在MySQL

我工作的一個Coldfusion8/MySQL查詢中，我正在掃描數據庫AB對，例如： S=2, M=2, L=2, XL=2 我想改進原來處理這個腳本，這限制條目爲4對，因爲我想知道爲什麼它首先選擇所有記錄與一個匹配對，然後使用HAVING只選擇記錄，與全部對匹配。這裏是原來查詢，後來我的當前版本：  <cfparam name="s01" d

1熱度

2回答

訪問大數據集和/或存儲它們

目前我正在處理大量的float/double數據集以用於計算。我有一組文件來比較數據A和數據B，我想計算歐幾里德距離/餘弦相似度。 I.E.數據點1遍歷數據B點以找到最近的鄰居。數據在文本文件中給出 - 沒有問題。什麼是存儲/讀取信息的理想方式？我將不得不爲數據A中的所有點重複數據B.數據將作爲浮點數存儲。每個數據點可能有尺寸。一個文件最多可以包含約2mil的浮點數。我應該去使用：不斷讀取

1熱度

2回答

如何在Go中分配16GB的內存？

我使用以下簡單Go代碼來分配大小1024x1024x1024的3D陣列： grid = make([][][]TColor, 1024) for x = 0; x < 1024; x++ { grid[x] = make([][]TColor, 1024) for y = 0; y < 1024; y++ { grid[x][y] = make([]TColor,

0熱度

1回答

PHP查詢運行速度很慢，並切斷了非常大的MySQL數據庫中的值

我正在處理一個包含大約30個表和1000萬個唯一條目的數據庫。我想使用PHP以某種格式使用echo「function」並使用{$ variable}放置變量來呈現該數據。此外，數據是分層的，所以我使用了一個連接命令來包含多個列，結果表大概是15列。我在谷歌瀏覽器中運行了php文件，它在一個相當不錯的core2duo機器上運行了大約1個小時。但結果集停在了大約18萬條 - 我對查詢的方式沒有

8熱度

3回答

我應該使用哪種數據結構進行地理編碼？

我想創建一個Python腳本，它將採用一個地址作爲輸入，並且會在多個匹配的情況下吐出它的經度和緯度，或緯度和經度，非常像Nominatim。所以，可能的輸入和輸出可以是： - 在：紐約，美國=>輸出：紐約（緯度：X1經度：Y1）在：紐約=>輸出：紐約（緯度：X1 LON：Y1）在：珍珠街，紐約，美國=>輸出：珍珠街（緯度：X2經度：Y2）在：珍珠街，USA =>輸出：珍珠街（緯度：X2經度

0熱度

2回答

通過引起錯誤內存錯誤的列表在數據庫中載入數百萬行數據

我正在通過sortabledataprovider裝載百萬行數據 ..查詢返回一個列表（Arraylist），因爲我將它發送到啓用Wicket ajax的表和分頁啓用表。所以問題是 - 如果有併發查詢 - 應用程序可能會崩潰。我已經在數據庫中獲得100,000行的Java堆空間錯誤。所以我想實現的是這個 - 當用戶點擊下一頁或者可能是第10頁時 - 它將只加載數據庫中的第10頁數據 - 而不

0熱度

1回答

MPI大數據處理

我的MPI應用程序將讀取一系列圖像來構建3-D數據。這是非常大的數據（大約4 GB）。我不希望數據分發給每個工作人員。我不知道如何處理這件事。共享內存可能是一個解決方案。但是如何使用MPI來使用共享內存。我已經搜尋了很多關於這個，沒有發現好東西。有人可以給我建議或使用MPI進行大數據處理的示例（順便說一下，我正在使用Open MPI實現）。非常感謝您的大力幫助。