data-partitioning

    0熱度

    2回答

    我目前使用R通過使用隨機森林迴歸來執行特徵選擇。我想70:30分割我的數據,這很容易做到。但是,我希望能夠這樣做10次,每次10次獲得與之前不同的一組示例。 > trainIndex<- createDataPartition(lipids$RT..seconds., p=0.7, list=F) > lipids.train <- lipids[trainIndex, ] > lipids.

    0熱度

    1回答

    我有一個處理時間過長的大型多維數據集。我想更改我的多維數據集分區和處理選項。我明白過程增量會將新記錄拉入多維數據集。我的問題是,是否有多個分區和執行流程增量的優勢,而不是隻有一個分區和執行流程增量?我不希望每次處理時都有大量的新記錄。

    1熱度

    1回答

    我們已經有了一個windows azure表存儲系統,我們有各種實體類型在白天報告值,所以我們有以下分區和行關鍵方案: 大約有4000 - 5000個實體。有6種實體類型,類型大致均勻分佈。所以每個人約800人。 ParitionKey:的EntityType最新 行鍵:ENTITYID 每一行記錄值,該日期的實體。這是目前JSON序列化。 數據非常冗長。 我們會定期回顧這些分區在一個月或兩個月內

    3熱度

    1回答

    您好,以下是我的問題:Windows Azure table access latency Partition keys and row keys selection關於我在Azure存儲帳戶中組織數據的方式。我有一個表格存儲方案,旨在存儲有關實體的信息。 大約有4000-5000個實體。有6種實體類型,類型大致均勻分佈。所以每個人約800人。 ParitionKey:的EntityType最新

    0熱度

    2回答

    我寫一個函數,應該輸出的所有列表A. 此問題的K-方式劃分顯然是遞歸的,並且實施應該是直接的: def gen_partition_k_group(A, k): # if len(A) == 0 : # EDITED FOLLOWING SUGGESTION yield [ [] for _ in xrange(k) ] # else

    1熱度

    1回答

    我有一個表(比如AUDIT),數據可追溯到10年。很少會查詢1歲以上的數據,完整備份開始時間過長。所以,我決定採用表分區和部分備份,所以如果(當!)我需要恢復數據庫時,我可以先恢復經常查詢的數據,然後再恢復舊數據。 我在它的日期時間列(AUDIT_DT)上對AUDIT表進行分區,將最近12個月的數據與舊數據分開。 PRIMARY分區保存最近12個月的數據,而OLD_AUDIT_ARCHIVE(只讀

    0熱度

    1回答

    我面臨一個問題,我有一個名爲Group的表格和一個名爲Entry的表格。 Group表具有主鍵Id。 Entry表具有主鍵Id,Group表的Id的外鍵被稱爲GroupId。 Entry表還有一列Weight。這Weight是一個整數,它所做的就是告訴我排序權重,其中0顯示在頂部。 基本上發生的是,有人在設計數據庫時使這個Weight字段爲空。現在我需要通過並調整Weight以適應我們打算添加的U

    5熱度

    2回答

    散列和索引都用於在某些預定義的公式上對數據進行分區。但我無法理解兩者之間的主要區別。 正如哈希中一樣,我們在一些關鍵值對的基礎上劃分數據,同樣在索引中,我們也將數據劃分爲一些預定義值。 任何人都可以幫我解決哈希和索引之間的區別,以及如何決定是否使用哈希或索引。

    2熱度

    1回答

    Greeings, 我配置了3節點Cassandra 1.2.12集羣,並且我能夠連接到主節點並在所有節點上創建密鑰空間和表。但是,我想在羣集上運行YCSB,因此當我運行YCSB並加載數據時,它全部加載到Master上。由於我正在加載1000000條記錄,我通過將該數除以我擁有的節點數來計算出初始令牌。 當我運行nodetool我得到的是這樣的: Address Rack Status State

    0熱度

    1回答

    我有一個50行和1.5M列的大矩陣。從這150M欄中,前兩個是我的標題。 我想把我的數據按列分成小塊。因此,例如每個小組將是50行和100列。但是每個小數據都必須將上面提到的前兩列作爲標題。 我試圖 awk '{print $1"\t"$2"\t"}' test | cut -f 3-10 awk '{print $1"\t"$2"\t"}' test | cut -f 11-20 ...