data-partitioning

    1熱度

    1回答

    創建數據分區憑藉caret包,當創建數據分區75%的培訓和25%的測試中,我們使用: inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE) 注:數據集被命名爲spam和目標變量命名爲type 我的問題是,包含y=spam$type論點的目的是什麼? 創建數據分區的目的不是簡單地根據訓練與測試所需的比例來分割整個數據集嗎?爲什

    0熱度

    1回答

    我有一個oracle查詢,我需要在同一個窗口中使用多個分析函數。我怎樣才能定義一個窗口,然後將它用於每個這樣的調用? I.e.我想將它寫像在PostgreSQL: SELECT sum(salary) OVER w, avg(salary) OVER w FROM empsalary WINDOW w AS (PARTITION BY depname ORDER BY sa

    1熱度

    2回答

    我正在從完全基於光標的基礎集合移動一堆代碼並生成這一直在做我的頭。我們創建一個6字符的短代碼(唯一)插入到每個公司數據庫和我(想)在遊標之外實現這一點。的我在迄今爲止其中 例子: CREATE TABLE #customers (name VARCHAR(50), shortname VARCHAR(10)) INSERT INTO #customers VALUES ('Michael Sm

    1熱度

    2回答

    我在Azure Data Lake Store中有數據,我正在使用U-SQL處理Azure Data Analytic Job中存在的數據。我有包含空間數據的幾個CSV文件,與此類似: File_20170301.csv longtitude| lattitude | date | hour | value1 ----------+-----------+--------------

    -2熱度

    4回答

    我想分區數組(例如[1,2,3,4,5,6,7,8]),第一個分區應該保持偶數值,第二個奇數值(例如結果:[2,4,6,8,1,3,5,7])。 我設法用內置的Array.prototype方法解決了這個問題兩次。第一種解決方案使用map和sort,僅次於sort。 我想作出第三個解決方案,它使用排序算法,但我不知道什麼算法用於分區列表。我正在考慮冒泡排序,但我認爲它在我的第二個解決方案(arra

    1熱度

    1回答

    我在S3存儲桶上有幾千個壓縮的CSV文件,每個大小大約30MB(解壓縮後大約120-160MB),我想使用spark進行處理。 在我的Spark工作中,我在每一行都做了簡單的過濾器選擇查詢。 分區Spark將文件分成兩個或多個部分,然後爲每個分區創建任務。每個任務需要大約1分鐘才能完成處理125K記錄。我想避免跨多個任務對單個文件進行分區。 有沒有辦法獲取文件和分區數據,以便每個任務在一個完整文件

    3熱度

    2回答

    我有一個類似於這樣的數據表。 |Key|LotId|TransactionType|Quantity|Destination |1 |A |Transform |NULL |Foo |2 |A |Transform |NULL |Bar |3 |A |Consume |100 |NULL |4 |B |Transform |NULL |Bob |5 |B |Transform

    -1熱度

    1回答

    我正在查看代碼中的數據幀已被拆分成超出所需(超過700)的太多分區的代碼中的錯誤,並且當我嘗試時會導致太多的洗牌操作將它們重新分配到只有48個。我不能在這裏使用coalesce(),因爲在重新分區之前,我想首先擁有更少的分區。 我正在尋找減少分區數量的方法。比方說,我有一個火花數據框(有多列)分爲10個分區。我需要根據其中一列進行orderBy轉換。完成此操作後,生成的數據幀是否具有相同數量的分區

    3熱度

    1回答

    從文檔: 對於自舉樣本,使用簡單隨機採樣。 對於其他數據拆分,當y是試圖平衡拆分中的類分佈的因素時,隨機抽樣在y 的級別內完成。 對於數字y,根據百分位 將樣本分成組,並在這些子組內對樣本進行抽樣。 對於createDataPartition,通過組 參數設置百分位數。 我不明白爲什麼需要這個「平衡」的東西。我想我表面上理解它,但是任何額外的見解都會非常有幫助。

    3熱度

    2回答

    如果我不知道表中包含多少個不同的鍵值,是否可以根據列值自動將表分成幾個文件? 是否可以將鍵值放入文件名?