text-processing

1熱度

2回答

我有很多的數據如下所示： There are many ways data could be missing.,,,,,,,,, ,,,,,,,,,,, An entire interior column could be missing.,,,,,,,,, [missing/data/inside],,,,,,,,, a,b,c,,,,,,, 1,,3,,,,,,, 1,,4,,,

1熱度

2回答

匹配字符串在另一個文件

我是相當新的Linux和Perl程序。我已經用盡所有搜索選項而沒有答案。我有一個主文件「master.txt」，其中包含已知的2列的所有已知交互，其中已知在同一行上的項目進行交互。我有一個項目列表「list.txt」，如果它包含在第1列和第2列中，我希望它們成爲從主文件返回結果的搜索條件。所有文件都是製表符分隔的。對於如：如果這是主文件：「master.txt」 AppleP001 Ball

0熱度

1回答

在nltk中類似（）和一致性的區別

我已經從this中讀取了text1.similar（「怪物」）和text1.concordance（「怪物」）。在Python中，自然語言處理工具箱的text1.concordance('monstrous')和text1.similar('monstrous')之間的差異無法得到滿意的答案。那麼請您詳細說明一個例子嗎？

1熱度

3回答

在Linux中合並兩個csv文件

我想按以下方式將兩個csv文件合併成一個文件。第一個文件：包含所有數據。第二個文件：包含數據更新。所以導致文件應包含通過第二個文件中的數據修改的行中的所有數據.. 例如： file1: 1,Hello,123 2,Hello,456 3,Bye,789 file2: 1,Hello,123 3,Hello,789 4,Bye,345 resulted file: 1,H

0熱度

2回答

追加到某一行使用awk文件，留下不匹配的行不變

給定文件測試及其內容： bcd://dfl sf 我想額外的信息追加到具有特定內容的行（與BCD）開始在下面的腳本作品 awk '/bcd*/ {print $0", extra information"} ' test > test.old && mv test.old test 它消除了不匹配的行。（sf）是否可以將它們保存在輸出文件中？

0熱度

1回答

要編輯的Python字符串

我想要做一些文本處理，主要是re.sub（）命令。我知道我不能改變一個字符串，但即使在我嘗試將字符串轉換爲一個列表並逐個更改元素之後，輸出仍然沒有變化。我想知道的是：a）我的代碼出錯了，b）使用bytearray比list更好嗎？ with open("responses_test.txt", "r+") as f: responsesIPA = f.readlines() for

2熱度

2回答

將包含IP的兩個文件與Python進行比較

我在查找比較兩個文件以創建第三個文件的有效方法時遇到了一些問題。我使用Python 3.6 第一個文件是IP地址的列表，我想刪除。第二個文件包含與該目標爲刪除的IP地址相關聯的所有DNS記錄。如果我在第二個文件中找到DNS記錄，我想將整行添加到第三個文件。這是文件1的樣品： IP 10.10.10.234 10.34.76.4 這是文件2的樣品： DNS Record Type,DN

-1熱度

1回答

根據第一列值將大文件分割成具有一定行數的文件

雖然我不希望第1列中有不同的值，但我不希望引用類似的問題here。例如，來自： A.B|100|20 A.B|101|20 A.X|101|30 A.X|1000|20 B.Y|1|1 B.Y|1|2 我想將它分成x個文件，每個文件包含最多5行。在這個例子中，我希望兩個文件： A.B|100|20 A.B|101|20 A.X|101|30 A.X|1000|20 和 B.

4熱度

1回答

測量文本的寬度（Python的/ PIL）

我使用以下兩種方法來計算一個樣本串的渲染寬度用於一組字體類型和大小： font = ImageFont.truetype("/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf", 14) sample = "Lorem ipsum dolor sit amet, partem periculis an duo, eum lorem paulo an,

1熱度

2回答

完全停止後添加空間

python中乾淨的方式來做這個簡單的文本修復 - 檢查每個句號（除最後一句）之後是空格。假設有一個沒有跟隨空格的點是我們可以在輸入字符串中得到的唯一可能的錯誤。我這樣做： def textFix(text): result = re.sub('\.(?!\s)', '. ', text) if (result[len(result) - 1]) == ' ':