我使用下面的代碼來標記字符串,從標準輸入讀取。Tokenizing一個字符串給一些字合併
d=[]
cur = ''
for i in sys.stdin.readline():
if i in ' .':
if cur not in d and (cur != ''):
d.append(cur)
cur = ''
else:
cur = cur + i.lower()
這給了我一個不重複的單詞數組。但是,在我的輸出中,有些單詞不會分裂。
我輸入的是
Dan went to the north pole to lead an expedition during summer.
和輸出數組d是
[ '丹', '去', '到', '的', '北', '極',' '''','夏季']'
爲什麼tolead
在一起?
應該也可能分裂。只是爲了確保OPs問題是真的。 –
Done with line [: - 1] :) –
嗯,不完全,因爲你可能有多個句子。僅僅因爲它在OP上的例子並不意味着它在野外工作。 –