large-data

    3熱度

    2回答

    我很抱歉如果這個問題已經得到解答,但我還沒有找到它。我會發布我的想法來解決它。問題是數據庫很大,我的電腦無法執行此計算(核心i7和8 GB RAM)。我正在使用Microsoft R Open 3.3.2和RStudio 1.0.136。 我試圖在R中的大型數據庫上創建一個新的列tcm.RData(471 MB)。我需要的是將Shape_Area與Shape_Area之和除以COD(我稱之爲Sha

    0熱度

    2回答

    我有大型數據表(〜30 Mb),我將它轉換爲Django中的模型。現在我想通過REST API訪問這些數據。 我已經成功安裝了Django REST框架,但我正在尋找一種方法來爲我的模型中的每個字段自動創建一個URL。我的模型有大約100個字段,每個字段大約有100,000個條目。 如果我的模型被命名爲樣品, models.py class Sample(models.Model):

    -1熱度

    1回答

    我time series我從模擬數據中獲得太大(350Mb)來繪製它(我想用dygraph來做)。有什麼方法可以讓我的數據集更小,但是不會泄露許多信息?

    0熱度

    2回答

    的pandas.dataframe.duplicated是偉大的一個數據幀中跨指定的列找到重複的行。 然而,我的數據集比內存(甚至比我所能合理的預算範圍內延伸之後適合大)什麼適合大。 對於我必須執行的大部分分析來說,這是很好的,因爲我可以遍歷數據集(csv和dbf文件),將每個文件自行加載到內存中,並按順序執行所有操作。但是,對於重複分析,這顯然不適合在整個數據集中查找重複數據,但僅適用於單個文件

    -4熱度

    1回答

    我有以下兩種方法,如何將DocObObj中定義的方法調用到DistanceObj中? 第一個目的是: object DocsObj{ def Docs(s: List[String], b:Int): List[String] = { ... } } 第二個是: object Distance{ def tanimoto(l1: List[String], l2: Lis

    0熱度

    2回答

    目前我有一個mysql數據庫,並且iam收集的數據一年是5 Terrabyte。我會一直保存我的數據,我不認爲我想很早就刪除一些內容。 我問自己是否應該使用分佈式數據庫,因爲我的數據每年都會增長。而5年後,我將有25 Terrabyte沒有索引。 (剛計算出我每天保存的原始數據) 我有5個表,大多數查詢是連接在多個表上。 而且我需要在特定的時間戳上訪問多行1-2列。 會的分佈式數據庫比只有一個my

    0熱度

    1回答

    我有一個非常大的字典大小〜200 GB,我需要經常查詢我的算法。爲了獲得快速的結果,我想把它放在可能的內存中,因爲幸運的是我擁有500GB的內存。 但是,我的主要問題是我只想在內存中加載一次,然後讓其他進程查詢相同的字典,而不是每次創建新進程或迭代我的代碼時再次加載它。 所以,我想是這樣的: 腳本1: # Load dictionary in memory def load(data_dir):

    6熱度

    1回答

    我很蠻力一場比賽,我需要存儲所有位置和結果的數據。數據可能會有數百GB的大小。我考慮過SQL,但是恐怕在緊密的循環中查找可能會導致性能下降。程序將迭代可能的位置,並在已知的情況下返回獲勝移動,如果已知所有移動都丟失並且檢查未知移動的結果,則返回最長失序。 什麼是最好的方式來存儲一個大的Map<Long,Long[]> positionIdToBestMoves?我正在考慮SQL或數據序列化。 我想

    0熱度

    1回答

    我正在玩大型數據集(約1.5m行x 21列)。其中包括交易的長期信息。我計算從幾個目標位置的本次交易的距離和追加以此作爲新列主數據集: TargetLocation1<-data.frame(Long=XX.XXX,Lat=XX.XXX, Name="TargetLocation1", Size=ZZZZ) TargetLocation2<-data.frame(Long=XX.XXX,Lat=

    0熱度

    1回答

    我有一個電子表格,其中一列中有圖像。當我點擊圖片時,我可以在左上角看到圖片名稱。 取而代之的是圖像的,我想它的名字出現在列。我無法手動執行此操作,因爲有超過10000行。有沒有辦法在列中獲取圖像名稱?