我解析的文本文件是由Wikipedia article製作的,基本上我做了一個Ctrl + A並複製/粘貼文本文件中的所有內容。 (我用它作爲例子)。 我試圖讓他們的計數的單詞列表,併爲我用掃描儀與此分隔符:有沒有一種標準的方法來檢測方向性?
sc.useDelimiter("[\\p{javaWhitespace}\\p{Punct}]+");
它爲我需要的偉大工程,但分析結果,我看到的東西,看起來像一個空白的標記(again...)。文章中的字符是(nynorsk)
(當我在這裏複製/粘貼字符消失時,在gedit中我可以使用→和←並且光標不移動)。
經過進一步的研究,我發現這個標記實際上是POP DIRECTIONAL FORMATTING (U+202C)。
它不是唯一的方向性字符,看着Character documentation Java似乎定義它們。
所以我不知道是否有檢測這些字符的標準方式,如果可能的話,可以很容易地集成在定界符模式的方式。
我想避免讓我自己的名單,因爲我擔心我會忘記其中的一些。
不要這些字符實際控制下面的文字是如何解釋?你確定把這些信息扔掉是個好主意嗎? –
@NiklasB。是的,在這種特殊情況下我不需要它,我只查找統計信息,所以文本流並不重要。 –
夠公平的,只是想提起:) –