我試圖使用sed從一個巨大的語料庫(超過2百萬行)中刪除標籤,但它不匹配特殊字母字符(例如ãẽéó)與'任何字符' 正則表達式sed與點(。)不匹配的特殊字母字符
樣品從語料庫(。):
<ext id=1 cad="Opinião" sec="opi" sem="94a">
PT no governo
Gilberto Dimenstein
BRASÍLIA Pesquisa Datafolha publicada hoje revela um dado supreendente: recusando uma postura radical, a esmagadora maioria (77%) dos eleitores quer o PT participando do Governo Fernando Henrique Cardoso .
我想刪除所有標籤(它們都遵循與 「轉ID = [0-9] CAD」 等相同的結構) ,所以我試圖用
sed 's/<.\+>//g' file1.txt > file2.txt
它爲大多數人創造了奇蹟,但由於我提到的特殊字母字符,我仍然有一些剩餘。我該怎麼辦?
的代碼適用於我對你的樣品輸入。你能舉一個代碼失敗的例子嗎?顯示您使用的輸入和輸出。你收到。 – John1024
您的語言環境設置和該文件的編碼將被添加importabt細節。具體而言,在'C'語言環境中,每個字節都被視爲一個單獨的字符,但是如果該文件使用多字節或可變長度編碼(如UTF-8),則非ASCII字符佔用多個字節。 – tripleee
使用正則表達式解析或編輯XML/HTML可能非常脆弱。通常的建議是使用XML特定的解析器。 –