我想從文本中提取所有字符串和數字編號。使用正則表達式提取所有數字和文字編號
text = 'one tweo three 10 number'
numbers = "(^a(?=\s)|one|two|three|four|five|six|seven|eight|nine|ten| \
eleven|twelve|thirteen|fourteen|fifteen|sixteen|seventeen| \
eighteen|nineteen|twenty|thirty|forty|fifty|sixty|seventy|eighty| \
ninety|hundred|thousand)"
print re.search(numbers, text).group(0)
這給了我第一個字的數字。
我預期的結果= [「一」,「二」,「三」,「10」]
我怎麼可以修改它,使所有文字和好位數字我可以在列表中得到什麼?
使用're.findall'並添加'| [0-9 ] +'分支到你的模式。請參閱https://ideone.com/w9Q0QZ。 'tweo'是一個錯字嗎? –
好吧,這裏還有更多的問題。你也需要使用我相信的詞語界限,因爲你主要對整個詞感興趣。 –
爲什麼你會在'10'上找到一個匹配? – ClasG