summarization

    1熱度

    1回答

    我有一系列的測量數據/時間序列在15分鐘的相同間隔。此外,我有一個給定的時間段(例如一天,當前周,月,年,(...),並且我需要按小時,天,月,(...)總結數值。 例如,總結所有上一個月的值按天計算 我的方法是在第一步中生成一個具有所需時間間隔的臨時數組,例如在PHP中(PHP不是必需的,我更喜歡Python或Javascript if它提供了一種快速的方法) $this->tempArray

    1熱度

    1回答

    尊敬的主席先生,紀念品 我想文本文檔(任何非結構化即新聞數據)的總結。我的第一個目標是在這個給定的文本數據中找到重要的事件,接下來的(第二步)基於這些事件我將選擇一些重要的事件(通過一些方法)。 請告訴我一些紙找到文本事件。(如果最新那麼會更好) 請告訴我一些文件,其中發現使用機器學習或軟計算的事件。 THANK YOU [email protected]

    0熱度

    1回答

    我想要做一個聚合算法,將獲得基於用戶亮點的文本中最重要的元素。 假設你有具有,你必須選擇從文本k連拍字作爲「有關突出顯示」,其中1 < = K < = N。(k爲n的子串)的能力n個字文本 假設我們從這些k個高光中的10到10000的任意位置選擇,是否有任何算法可以確定最重要的信息? 請考慮許多亮點會重疊,我們需要考慮這一點。我最好還是在javascript中尋找解決方案,因爲它是用於Chrome

    0熱度

    1回答

    我想了解如何聚合我的輸出。我創建了一些虛擬數據,這些虛擬數據近似於我的實際數據,即:數百個group1,group2的3個級別以及數十個驗證邏輯。道歉,如果這看起來很簡單,我已經狩獵和啄很多,不得不說,作爲R的新手,各種各樣的工具(申請家庭,ddply,聚合,表,重塑等)都是美妙的和有點嚇人:) #create data group1 <- paste("Group", rep(LETTERS[

    -1熱度

    1回答

    我已經寫出了一個適用於年復一年的季度增長率的代碼。但是,我的代碼只適用於我用來編寫代碼的數據。我希望能夠使用不同長度的數據運行整個代碼,而不必更改任何內容。 這裏是我的代碼: >lastyr<-tail(datan,horiz) #selects the last values from the original data >percentf<-((Arimab2f/lastyr)-1)*10

    0熱度

    2回答

    我有一個名爲Data的模型和一些名爲timestamp,value1和value2的列。我想用highstock chart來使用它。 之前圖表被印刷我想在其上一些計算: 總結VALUE1由VALUE2(值1 /值2)通過每天或每月或每年devided的結果,並把它在例如[[陣列timestamp_day,value1/value2],[...],...]。我可以做「時間戳分組」。但我總是在總結價

    0熱度

    2回答

    總結data.frame,我有一個由字符列和數字列組成的data.frame。現在我想計算數字列的平均值,並將結果附加到數據框的末尾。 class1 1 2 5 class2 2 3 6 class3 2 3 2 到 class1 1 2 1 class2 2 3 6 class3 2 3 2 mean 1.6 2.6 3 我colMeans試了,但這種衝突與字符列,我得到以下錯

    0熱度

    1回答

    我有一個表,看起來像這樣: Associate Pay_Code Hours Site Date Week Year Bill REG 8.0 US 3/3/2014 10 2014 Bill REG 8.0 US 3/4/2014 10 2014 Bill REG 8.0 US 3/5/2014 10 2014 Bill REG 8.0 US 3/6/2014 10 2014

    -1熱度

    1回答

    我正在構建一個簡單的天真文本總結算法。該算法是這樣工作的: 我的算法的第一步是刪除所有停用詞(stop words in English)。 在我的文本只包含具有實際含義的單詞後,我將查看每個單詞在文本中使用多少次以查找單詞的頻率。例如,如果使用「超級計算機」一詞5次,它將有frequency = 5。 然後,我要通過將sum of the frequencies of all words in

    4熱度

    1回答

    我整個銷售數據的數據框計算dplyr::summarize。 我做一個分組(S,D,Y),然後在每個組中,計算中間值和平均值爲5..43周,然後將它們合併回父df。變量X是銷售額。 X從來就不是NA(即df中沒有顯式的NAs),但是如果沒有S,D,Y和周的數據(如在,沒有銷售),那麼這些值將不會有任何行在df中(這意味着對於特定的一組參數零銷售量)。換句話說,在任何結構上缺少的行推諉X = 0(但