text-processing

    2熱度

    3回答

    我想列出如下數據: 輸入 Big Fat Apple 3 Small Fat Apple 2 Little Small Pear 1 預期輸出: Big = 3 Fat = 3+2=5 Apple = 3+2=5 Small = 2+1=3 Little = 1 Pear = 1 我試圖讓文檔詞矩陣對待這個爲主體,但我無法找到一種方式來實現「大胖子蘋果」實際上出現在語

    -2熱度

    2回答

    我想用perl腳本處理一些twitter數據集。該文件是以csv格式。 我想刪除自己的尋址提到 的CSV列和數據是這樣,例如 user, mention(user), message vims789, vnjuei234, yea this is good dfion, youwen12, this is win don234, don234, this is green wen123,

    1熱度

    2回答

    我想知道哪些是在文本文件中重複X次的線條,我使用的是awk但我在我的命令中看到了awk,不適用於線條從相同的字符或單詞開始。也就是說,不會單獨識別整條線。 使用此命令我試圖讓那些重複3次行: awk '++A[$1]==3' ./textfile > ./log

    2熱度

    2回答

    我有以下數據集 > head(data) X UserID NPS V3 V4 V5 Event V7 Element ElementValue 1 1 254727216 10 0 19 10 nps.agent.14b.no other attempt was made 10/4/2014 23:59 cea.element_name nps.

    1熱度

    1回答

    如何刪除以@開頭並以Python空白結尾的子字符串? 此外,我想刪除所有序列開始http,如: Input "ABC @XYZ ABC @Python ABC http://www.stackoverflow.com ABC" Output "ABC ABC ABC ABC"

    -2熱度

    2回答

    我有一個文件夾,其中包含旅遊評論.txt中的許多文件。我想用一攬子文字的方法將它們轉換爲用於機器學習的某種數字表示(Latent Dirichlet Allocation - LDA),用C++來訓練系統識別每個文檔的主題。 但不知何故,我不知道如何處理Word的算法,我聽到一些像Scikit學習工具。但是Scikit學習python環境中的工作。我想知道,是否有一些推薦工具/庫可以幫助我解決我的

    0熱度

    3回答

    我剛纔需要處理一個配置文件。由於它產生的方式,它包含這樣的行: ---(more 15%)--- 第一步是將這些不需要的線去掉。作爲一個輕微的扭曲,這些行中的每一行後面都有一個空白行,我也想刪除它們。我創建了一個快速的Python腳本來做到這一點: skip_next = False for line in sys.stdin: if skip_next: skip_n

    0熱度

    2回答

    我已經解析了文本並使用斯坦福解析器提取了所有名詞短語。現在我需要我解析名詞短語轉換成純文本: 輸入: (NP (DT the) (JJ dallas) (NN country) (NN club)) (NP (NP (CD 25) (NN cent)) (NP (NNP bingo))) 期待輸出: the dallas country club Cd 25 cent bingo 注:

    -4熱度

    1回答

    我目前正在嘗試創建一個應用程序來執行一些文本處理來讀取文本文件,然後我使用字典創建字索引,讀取文本文件和檢查該單詞是否已經在該文件中。如果是這樣,它會打印索引號並繼續檢查。 我試着實現一些代碼來創建字典。我使用的代碼如下: private void bagofword_Click(object sender, EventArgs e) { //creating dictionary in bac

    1熱度

    1回答

    我有qmake項目與生成文檔的目標。遠在純慶典QMAKE的我會寫這樣的: PWDMOD=$(echo $PWD | sed -e 's/\//\\\//g') ; sed -i 's/INPUT = /INPUT = $PWDMOD\/src\/fileset/g' $PWD/Doxyfile 是的,我需要同時make doc執行修正到的Doxyfile輸入變量。但在我的情況 - 在qmak