text-processing

    1熱度

    1回答

    如何轉換文本字符串,並將其添加到現有的JSON對象 當前JSON輸出: { "start process": "Wed May 24 05:22:35 UTC 2017", "logfilename": "log_test" } { "start filelist": [ "/downloads/json_log_array2object.jq",

    2熱度

    2回答

    我有很多文本的正文,並且對於它們中的每一個,我想提取所有的unigrams,bigrams和trigrams(單詞,而不是字符),並將計數和ngram長度插入到另一個表中。 現在我正在考慮使用WITH ORDINALITY對文本正文表達式進行拆分,然後對bigrams和trigrams使用多個子查詢,但這需要排序。但是,我認爲這可能是一個無效的方法,因爲這種位置數據通常應該通過索引來訪問。 我目前

    -2熱度

    2回答

    您好我這裏有一個列表: list_1.txt Alpha Bravo Charlie 和文件與以下文件名和內容的目錄: Alpha_123。日誌 This is a sample line in the file error_log "This is error1 in file" This is another sample line in the file This is a

    2熱度

    3回答

    我嘗試從我的日誌文件中獲取一個數字。這個數字是在每個「當前商店使用率」之後。我怎樣才能做到這一點?我可以使用re模塊嗎?從日誌文件 線 2017-05-30 12:01:03,168 | WARN | Store limit is 102400 mb (current store usage is 0 mb). The data directory: /opt/apache-activemq-5.

    1熱度

    1回答

    如何將大型連接的xml文件拆分爲具有使用字符串命名的文件的單個xml文件? 的input.xml <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE type-of-doc SYSTEM "file.dtd" [ ]> <type-of-doc lang="EN" dtd-version="v1" file="1001-20170101.XML"

    3熱度

    2回答

    LSTM的注意機制是一個直接的softmax前饋網絡,它接收編碼器每個時間步的隱藏狀態和解碼器的當前狀態。 這些2個步驟似乎矛盾並且無法繞到我的頭: 1)需要被預先定義 2)編碼器的隱藏狀態的數量是可變的的輸入的前饋網絡的數量(取決於在編碼期間的時間步數)。 我誤會了什麼嗎?訓練與訓練常規編碼器/解碼器網絡一樣,還是需要單獨訓練注意機制? 由於提前

    -1熱度

    1回答

    我正在用Electron和ReactJS編寫一個桌面應用程序來編輯CSS文件。 我需要掃描CSS查找類選擇器,然後清除以下聲明塊並添加一些新屬性。 棘手的部分是匹配選擇器中的類。我需要這個類是實際的目標(不是父類),但可能會有多個由逗號分隔的選擇器,所以我需要檢查它們。 例如, 在這個文件我在尋找的containerApp類: .section僞 - 主.section僞右,。菜單.contain

    0熱度

    2回答

    我正在使用awk處理我的文本文件。我寫下面的代碼: #!/bin/bash l=1 while [ $l -lt 5 ] do echo $l awk -v L=$l '/^BS[0-5]|^FG[2-7]/ && length<10 {i++}i==L {print}' l=$(expr $l + 1) done <input.txt 但是,一旦我運行代碼,我只是得到第一個aw

    -1熱度

    2回答

    我開始對某些csv文檔進行一些文本分析。然而,我的csv文檔有幾個句子,幾乎沒有什麼詞讓我感興趣,所以我想創建一個python代碼來分析這個csv文檔,只留下包含5個以上單詞的句子供我分析,但是我不知道在哪裏開始做我的代碼,並希望得到一些幫助。 例如: 輸入文檔 enter image description here 輸出文檔 enter image description here

    0熱度

    3回答

    我想從文件中選擇隨機行/單位,但單位由2行組成。 例如文件看起來像這樣 亞當 蘋果 柯以敏 糖果 史蒂夫 芯片 大衛 肉類 卡羅爾 胡蘿蔔 而且我要隨機子選擇讓說,2個單位 例如 亞當 蘋果 大衛 肉類 或 個 史蒂夫 芯片 卡羅爾 胡蘿蔔 我使用shuf和sort -R嘗試,但他們只混洗1線。請有人幫助我嗎? 謝謝。