我有一個方法getNextChar(),它逐字符地讀取一個字符串。我正在寫一個方法來獲取由getNextChar()提供的字符序列中的單詞。如何從java中的字符序列中獲取單詞?
該文本包含標點符號和其他特殊字符。
我想擁有一個包含所有標點符號和特殊字符的數組,當我讀取文本的字符時,檢查字符是否在數組中以忽略它。 該方法將識別該單詞,當它獲得一個空間。 單詞將存儲在收集(例如:地圖),因爲我需要計數頻率以及通過檢查單詞是否已被插入之前在地圖和增加該單詞的計數器。
- 這是最好的和高效這樣做的方式?我正在尋找最有效的方式。 A
- 是否有任何標點符號和特殊字符的完整列表?
你只有讓你的數據的字符在時間?或者你是否一次獲得一個字符串,而你只是選擇字符迭代,因爲那是你認爲找到分詞符的最好方法? –
http://docs.oracle.com/javase/1.4.2/docs/api/java/util/StringTokenizer.html這可能可以做你想要的東西 – theBigChalk
我得到一個字符一次,直到我得到EOFException當沒有更多的字符。 – Sami