給予相同的文字,我知道我可以用NLTK的資料Tweet標記生成令牌化它例如產生「偉大的飲料,牛肉薯餅,咖啡,玉米煎餅。」:符號化,分離由標點符號拆分令牌
['Great',
'drinks',
',',
'beef',
'hash',
',',
'coffee',
',',
'burritos',
'.']
我要分開處理逗號和句號前的每個部分,以生成一個列表,如[Great drinks, beef hash, coffee, burritos]
。我將如何做到這一點?
完美 - 謝謝 – user3058703