我想知道我們是否可以使用文本文件作爲標記化的手段。例如,假設有一個文件(字典),並且你想標記你檢查第一個字典來標記。你可以使用字典(文本)正則表達式標記化嗎?
如:
Dict_list = [環境測試中,蘋果貓,其餘測試]
文本:環境試驗是世界蘋果貓最好的蘋果是在測試休息。
假設文本列表很大,字典也很大,所以如果我們想標記它會標記空格,但是我需要標記整個文本但是我想檢查dict_list看看它是否應該是一個標記。
所以令牌應該是:
令牌道: 「」, 「環境試驗」, 「是」, 「的」, 「最好的蘋果」, 「中」, 「中」, 「世界」, 「蘋果貓」,「是」,「該」,「測試休息」。
我希望這是有道理的。
預先感謝您。
不,這沒有意義。你有一些代碼,預期的結果和實際結果嗎?或者這是一個哲學問題。 – RobertB
@Sam這是你的解決方案:http://www.nltk.org/api/nltk.tokenize.html – mertyildiran
@RobertB,我有一個文本文件,我需要標記。我們不能使用普通的正則表達式/標記器來標記文檔,所以我需要一種標記這些文本的方法。如果我能結合正則表達式和字典,我相信會更容易。我的問題是,如果這是可能的。 – Sam