1
是否有將阿拉伯文檔拆分爲多個句子的方法?目前我正在使用「。」 用於分句。如何將阿拉伯文檔拆分爲多個句子
我在尋找更好的句子拆分模型,例如opennlp中可用的英文版本。
請讓我知道,如果你知道任何這樣做的軟件包。
由於
是否有將阿拉伯文檔拆分爲多個句子的方法?目前我正在使用「。」 用於分句。如何將阿拉伯文檔拆分爲多個句子
我在尋找更好的句子拆分模型,例如opennlp中可用的英文版本。
請讓我知道,如果你知道任何這樣做的軟件包。
由於
Unicode Standard Annex #29 Unicode Text Segmentation指定用於確定用戶感知字符,詞和句子之間默認邊界準則。
ICU通過BreakIterator提供對UAX#29的支持。
爲了簡單的目的,UAX#29提供的文本分割應該足夠好,就像三擊語句的選擇一樣。