-1
我有印地文含有30000字的文本文件約。我必須從文件中獲取唯一的單詞並將其保存爲表格形式。 我正在嘗試這個java.But我不知道如何做到這一點。 任何人都可以幫忙嗎?java代碼獲取和存儲在印地文語言輸入文本文件中的獨特單詞
我有印地文含有30000字的文本文件約。我必須從文件中獲取唯一的單詞並將其保存爲表格形式。 我正在嘗試這個java.But我不知道如何做到這一點。 任何人都可以幫忙嗎?java代碼獲取和存儲在印地文語言輸入文本文件中的獨特單詞
我建議你使用Set http://docs.oracle.com/javase/6/docs/api/java/util/Set.html來存儲你的字符串。
優點是它不允許超過一次的值。這裏舉一個例子:
Set<String> storage = new HashSet<String>; //use TreeSet<String> if you need to sort the values
storage.add("dog");
storage.add("cat");
storage.add("cat");
for(String name: set) {
System.out.println(name); //Values are: dog, cat
}
你可以像這樣讀取文件:Reading a plain text file in Java。
基本上可以將它作爲明文與「,」之間保存爲csv。那麼你可以很容易地將它導入excel
是否有一個特定的原因,那些30'000字不在數據庫中?你如何定義你需要找到的獨特單詞?用正則表達式? – Gildraths
從意義上說,重複的不包括在內的獨特單詞。只需要一個詞的出現就可以保存在表格中。 原因是我必須從文件中區分停用詞,根詞和詞根。 –
因此,基本上在30,000個單詞中有例如15,000個單詞(沒有雙重條目),您想要以表格形式保存,對嗎? 表格形式如何,它是以gui顯示還是保存在Excel表格中,或者它背後的想法是什麼? – Gildraths