2012-05-26 143 views
1

我解析的文本文件是由Wikipedia article製作的,基本上我做了一個Ctrl + A並複製/粘貼文本文件中的所有內容。 (我用它作爲例子)。 我試圖讓他們的計數的單詞列表,併爲我用掃描儀與此分隔符:有沒有一種標準的方法來檢測方向性?

sc.useDelimiter("[\\p{javaWhitespace}\\p{Punct}]+"); 

它爲我需要的偉大工程,但分析結果,我看到的東西,看起來像一個空白的標記(again...)。文章中的字符是(nynorsk)‬(當我在這裏複製/粘貼字符消失時,在gedit中我可以使用並且光標不移動)。

經過進一步的研究,我發現這個標記實際上是POP DIRECTIONAL FORMATTING (U+202C)

它不是唯一的方向性字符,看着Character documentation Java似乎定義它們。

所以我不知道是否有檢測這些字符的標準方式,如果可能的話,可以很容易地集成在定界符模式的方式。

我想避免讓我自己的名單,因爲我擔心我會忘記其中的一些。

+0

不要這些字符實際控制下面的文字是如何解釋?你確定把這些信息扔掉是個好主意嗎? –

+0

@NiklasB。是的,在這種特殊情況下我不需要它,我只查找統計信息,所以文本流並不重要。 –

+0

夠公平的,只是想提起:) –

回答

1

你總是可以走另一條路輪和使用白名單,而不是黑名單:

sc.useDelimiter("[^\\p{L}]+"); 
+0

非常感謝,我不必再使用'\\ p {javaWhitespace} \\ p {Punct}'你是對的。 –

相關問題