2012-10-24 26 views
0

我想知道是否有可用於測試算法的在線示例文本。例如,我正在掀起一個簡單的標記化函數,並希望確保它適用於特殊情況,如中間字標點符號(「不」,「O'Brien」),破折號(對於我的目的而言,「Sacksville -Bagginses「應該是一個單一的標記),國際字符等。用於測試文本處理功能的樣本數據或語料庫?

同樣,它將是很好的時候掀起其他算法手頭的文件是理想的測試他們,而不是鞭起或在古騰堡尋找好的示例文本。

也有用的是文本,可能被用於測試之類的拼寫&語法工具等

+0

我試着看看[Lucene](http://lucene.apache.org/core/)的令牌分析器和分析器單元測試作爲首發。 – amit

+0

這個問題將在主題上http://opendata.stackexchange.com/ –

回答