2017-08-25 104 views
0

如果我有一個字符串「你好,我是XYZ」它可以被標記爲標記: - 「你好」,「我」,「上午」,「XYZ」。但是,我將如何標記一個非空格分隔的字符串。 例如:「你好,IamXYZ」我如何標記非空格分隔的字符串?

+0

Tokenize是什麼,英文單詞?閱讀字典並查看是否有任何組合匹配。但我期望很多字符串都會模糊(兩個或多個有效的解析) – Kevin

回答

0

如果字符串中沒有空格,則使用字典對其進行標記。

另一種方法是使用ngrams,但要小心字符串的長度,因爲它可能會創建許多ngram!

+0

我將如何使用字典?我可以使用ngrams,但它會很耗時,我必須將它與我的字典中存在的每個單詞的ngram進行比較。例如,如果它是WhereisIndia? (wh,he,er,re,ei,sI ....},我必須把{wh,他}與所有單詞的重音進行比較,然後{wh,他,呃}與每個單詞的二元組進行比較,等等。 –

相關問題