text-processing

    2熱度

    1回答

    我正在處理一些沒有結構(它們很混亂)的.txt文件,它們代表了一些頁面。爲了給他們一些結構,我想確定文件本身沒有的頁數。這可以通過每三個新行與一些註解像更換來完成: \n page: N \n 哪裏N是多少。這是我的文件的樣子,我也嘗試了一個簡單的replace。然而,這個功能混淆了,並沒有給我預期的格式,就像this。想知道如何用某種標識符替換空格,試圖解析它們並獲得某些信息(頁

    0熱度

    2回答

    我有以下形式的文本文件: a = 1 #b = [2,3] c = 4 d = [5,6] e = [7,8] 我想更換支架(和括號內)與一些內部格局,但忽略評論比賽,最好使用sed。 對於恰好與一個匹配行的文件,我用 sed -i "/^#/!s/\[.*\]/9/" myfile 怎麼可以這樣修改,如果有更多的僅替換第一場比賽?

    0熱度

    1回答

    提取從數據幀的行和列我有從我想以提取第二列的值成一個數據幀的例子csv文件看起來像下面 圖像繼csv文件是我寫的 ICVdir <- "/media/dev/Daten/Task1/T1_Images" #loding csv file from ICV mycsv <- list.files(ICVdir,pattern = "*.csv",full.names = T) af<- rea

    1熱度

    1回答

    如何找到包含確切3「w」,5「t」和沒有「v」與grep的行? Input: ---------- aabbccddd4444 wccwwtttjjttuu zzxxxwwwmmmnnnn Expected output: ---------------- wccwwtttjjttuu 因爲在 「wccwwtttjjttuu」 我們有3個 「W」,5 「T」,並沒有 「V」 謝

    0熱度

    2回答

    我在csv文件中有以下格式的一些數據。 Id Category 1 A 2 B 3 C 4 B 5 C 6 d 我想將它轉換成下面的格式並保存它的另一個csv文件 Id A B C D E 1 1 0 0 0 0 2 0 1 0 0 0 3 0 0 1 0 0 4 0 1 0 0 0 5 0 0 1 0 0 6 0 0 0

    4熱度

    3回答

    我們正在嘗試改進CMake生成的makefile。對於Clang,GCC和ICC,我們要添加-march=native。這樣做的塊的樣子: # -march=native for GCC, Clang and ICC on i386, i486, i586, i686 and x86_64. message(STATUS, "1") message(STATUS, "Compiler: x${

    0熱度

    2回答

    我在R上的下面的代碼,以獲取有關當地的市長候選人,最近的鳴叫,並創建一個wordcloud: library(twitteR) library(ROAuth) require(RCurl) library(stringr) library(tm) library(ggmap) library(plyr) library(dplyr) library(SnowballC) libr

    2熱度

    2回答

    這是我的示例: POLÉVKA: Silný vývar z hovězího žebra s masem a zeleninou, vlasové nudle ŘÍZEČKY z KUŘECÍCH PRSÍČEK obalované v bylinkovém těstíčku smažené na slunečnicovém oleji podávané s mléčnou bramborov

    0熱度

    1回答

    我有具有以下線 - [arakoon_scaler_thresholds] checker_loop_time = 3600 我想更換2行以上與以下行文件 - [arakoon_scaler_thresholds] checker_loop_time = 60 我使用下面的命令但沒有發生變化。 sed -i "s/arakoon_scaler_thresholds\nchecker_l

    1熱度

    1回答

    我有一個關於文本處理任務,我不知道如何從不同的表中某些列合併成一個表 因此,這裏的情況: 我有一個名爲list與id_doc表,title列 然後我創建一個名爲term_list的新表,其中包含結果字詞列表,當我對list標題進行文本處理時。 term_list表具有id_term,term,df和idf列。最後,我想有一臺名爲term_freq具有tf列id,id_term,id_doc,和no