我對bash和perl等東西還是一個新東西,並且需要一些任務幫助。我正在準備(添加和編輯)一個大型高棉統一資源編碼語料庫,以便與ICU高棉語單詞的補丁一起使用。Perl腳本從大的Unicode文本文件中刪除所有英文
到目前爲止,我一直無法找到一個穩定的解決方案,自動刪除所有英文字母和標點符號(只留下高棉語)。我被告知Perl可能是要走的路,但我不確定從哪裏開始(我不是真正的程序員)。
我在過去使用過bash腳本,但結果並不完美(我最終不得不手動檢查列表並刪除非高棉字符)。
下面是一些建議,我已經在過去的:
LC_ALL=POSIX sort khmerdict.txt | sed '/[[:punct:]]/d' > khmer-sorted.txt
哪些應該刪除標點...但由於某種原因,在我的文件中刪除了很多線,所以它是無用的。
這:
sed -e 's/[a-zA-Z]//g' -e 's// /g' -e 's/\t/ /g' -e 's/[«|»|:|;|.|,|(|)|-|?|។|」|「]//g' -e 's/[0-9]//g' -e 's/ /\n/g' -e 's/០//g' -e 's/១//g' -e 's/២//g' -e 's/៣//g' -e 's/៤//g' -e 's/៥//g' -e 's/៦//g' -e 's/៧//g' -e 's/៨//g' -e 's/៩//g' dictionary.txt | \
這是另一次嘗試,去除英文字母,標點符號以及所有紅色數字......但就像我說的,它並沒有完全準確的工作。
有沒有人有一個穩定的解決方案的想法,這將與高棉Unicode的工作良好?也許有一種方法可以使用一系列Unicode字符(Khmer Unicode Mapping PDF)刪除所有內容?
如果您想嘗試在字典的東西,你可以下載一個測試版在這裏:http://www.sbbic.org/Khmer-Unicode-Wordlist.zip
這裏是玩周圍的簡短列表:
កំណត់
--
ស្រូវ
ទម្លាប់
}
é
"សំយុង
"លើក"
"ព"
"ផ"
ទស្សន--
–សម្ភាស
ចម្ងាយahead
ទាត់១
感謝, 彌敦道
哇,真棒 - 謝謝! – Nathan
這個腳本工作的很棒 - 嚴肅的道具!我從來沒有能夠找到與高棉合作的東西--Perl是關鍵!只是一個附加說明,如果任何人看着這個想要用於高棉的人 - 如果你想保留零寬度空間(U + 200B),只需將它添加到\ x {200C} \ x {200B}這個陣容中作品完美。再次感謝克里斯! – Nathan