2009-02-18 42 views
0

IBM顯然是開源的ICU源代碼,用於Unicode和全球化支持,其中一部分是文本邊界定位器,用於檢測文本中可以放置中斷的位置。單詞中斷規則文件

但是,中斷檢測的東西依賴於規則,我無法在任何位置找到規則文件。

我在哪裏可以獲得com.ibm.icu.text.BreakIteratorcom.ibm.icu.text.RuleBasedBreakIterator的單詞分隔規則文本文件?

+0

吧?你在那裏失去了我。對於這是什麼有點背景,可能放在相關標籤中呢? – Yuval 2009-02-18 06:24:18

回答

2

http://www.icu-project.org/包含IBM根據開源許可證發佈的icu4j的所有源代碼。這包括邊界分析的東西,如基於字典和基於規則的中斷迭代器。

但是,似乎沒有適合閱讀的文本文件。我不確定IBM是否會將他們的規則集作爲開源發佈(因爲這對他們來說是一個非常大的技術優勢)。相反,這個想法是創建你自己的規則集,其中的教程是here

就在同教程的狀態,你可以通過運行轉儲默認規則:

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator) 
    BreakIterator.getWordInstance(Locale.getDefault()); 
String defaultRules = rbbi.toString();