我想讀取一個有urdu數據的文件。當我在Notepad ++中查看文件時,它在urdu中有數據。但是當我在eclipse中查看它時,它會顯示某種類型的編碼(可能會得到一些默認值)。 原始烏爾都語數據(記事本++): "10","کراچی میں ٹماٹر کی قیمت میں کمی،25روپے فی کلو ہوگیا","Entertainment"
在Eclipse: "10",
我在烏爾都語有一個10000字以上的語料庫。現在我想要的是清理我的數據。當我使用正則表達式時,在我的文本中會出現一個特殊的uni編碼數據,例如「!?」,它使我錯誤地發現數據不是編碼形式。 請提供一些幫助來清理我的數據。 謝謝 這裏是我的樣本數據: ظہیر احمد ماہرہ خان کی، تصاویر، نے دائیں اور بائیں والوں کو آسمانوں پر پہنچا
我想將標記添加到從右向左書寫的(烏爾都語言)文本。我試圖使用GSUB爲目的,但一切到目前爲止,我已經試過不產生所需的輸出 text <- "یہ جملہ ایک مثال کے لیے استعمال کیا جا رہا ہے"
pattern <- "کیا جا"
replaceWith <- paste0("<somemark>", pattern, "</somemark>")