1
我有以下格式的熊貓系列(命名DF):熊貓系列extractall錯誤
col1
a GEOS 13100
b MATH 13100-MATH 13200
c MATH 19100-19200
d SPAN 10300 or 20300
e EGPT 10101-10102-10103
f MOGK 10100/30100
g PHSC 12600 must be taken before PHSC 12620
我想提取所有課程(「[AZ] {4} \ S * \ d {5} 「或」\ d {5}「)。所需的數據集將在以下格式:
col1 col2 col3 col4 col5
a GEOS 13100
b MATH 13100 - MATH 13200
c MATH 19100 - 19200
d SPAN 10300 or 20300
e EGPT 10101 - 10102 - 10103
f MOGK 10100 / 30100
g PHSC 12600 PHSC 12620
我試圖
df.col1.str.extract('(([A-Z]{4}\s*\d{5}?)|(\d{5}?)).*?(and|\-|or|\, or|\:|\/|\.|\;|\(|\s?)')
,得到了第一匹配的模式。
我試圖
df.col1.str.extractall('(([A-Z]{4}\s*\d{5}?)|(\d{5}?)).*?(and|\-|or|\, or|\:|\/|\.|\;|\(|\s?)')
而且得到了以下錯誤:
Length of names must match number of levels in MultiIndex.
任何人有任何想法,我應該怎麼辦呢?
你能張貼設置你想要的數據? – MaxU
我剛發佈它。謝謝! @MaxU – Claudia