有沒有一種標準的方法來檢測方向性？

我解析的文本文件是由Wikipedia article製作的，基本上我做了一個Ctrl + A並複製/粘貼文本文件中的所有內容。（我用它作爲例子）。我試圖讓他們的計數的單詞列表，併爲我用掃描儀與此分隔符：有沒有一種標準的方法來檢測方向性？

sc.useDelimiter("[\\p{javaWhitespace}\\p{Punct}]+");

它爲我需要的偉大工程，但分析結果，我看到的東西，看起來像一個空白的標記（again...）。文章中的字符是(nynorsk)‬（當我在這裏複製/粘貼字符消失時，在gedit中我可以使用→和←並且光標不移動）。

經過進一步的研究，我發現這個標記實際上是POP DIRECTIONAL FORMATTING (U+202C)。

它不是唯一的方向性字符，看着Character documentation Java似乎定義它們。

所以我不知道是否有檢測這些字符的標準方式，如果可能的話，可以很容易地集成在定界符模式的方式。

我想避免讓我自己的名單，因爲我擔心我會忘記其中的一些。

不要這些字符實際控制下面的文字是如何解釋？你確定把這些信息扔掉是個好主意嗎？ –

@NiklasB。是的，在這種特殊情況下我不需要它，我只查找統計信息，所以文本流並不重要。 –

夠公平的，只是想提起:) –

你總是可以走另一條路輪和使用白名單，而不是黑名單：

sc.useDelimiter("[^\\p{L}]+");

2012-05-26 14:29:49

非常感謝，我不必再使用'\\ p {javaWhitespace} \\ p {Punct}'你是對的。 –

回答