我有一個csv文件,其中包含各種不同提名和獲獎的獎項專欄。我想從此數據集中的獎勵列中提取數據,並將其分成幾列。這些獎項包括獲獎細節,一般提名,以及某些類別的獲獎和提名(如奧斯卡,BAFTA等)。獎項欄的示例輸入如下所示。如何從Python中的字符串中提取信息?
而且我想這個數據拆分成若干列分析數據。我們可以用python來實現嗎?我使用熊貓來訪問數據框。預期的輸出樣本如下所示。
我有一個csv文件,其中包含各種不同提名和獲獎的獎項專欄。我想從此數據集中的獎勵列中提取數據,並將其分成幾列。這些獎項包括獲獎細節,一般提名,以及某些類別的獲獎和提名(如奧斯卡,BAFTA等)。獎項欄的示例輸入如下所示。如何從Python中的字符串中提取信息?
而且我想這個數據拆分成若干列分析數據。我們可以用python來實現嗎?我使用熊貓來訪問數據框。預期的輸出樣本如下所示。
看來你的數據不是特別良好的結構。如果格式是保證在以下形式:
X勝& ý提名。
然後將以下代碼:
testStrings = ['1 win & 1 nomination.','2 wins.','5 nominations.', '3 wins & 8 nominations.', '2 wins.','9 wins.']
text = [i.split('&') for i in testStrings]
data=[]
for row in text:
for t in row:
winIndex = t.find('win')
nomIndex = t.find('nom')
if winIndex>0:
w=int(t[:winIndex-1])
else:
w=0
if nomIndex>0:
n=int(t[:nomIndex-1])
else:
n=0
data.append([w,n])
會給你列表數據,每個元素都是[numWins,numNoms]每一行。
通過搜索這些關鍵字(例如代碼查找子字符串「won」和「nom」),您可能可以擴展它以適應不同的格式(例如「Won 1 Primetime Emmy」)。希望這可以提供一些幫助。
這就是問題數據是非結構化格式。有什麼辦法可以讓它結構化嗎? – swarupmishal
你的意思是你的輸入數據是非結構化的?還是輸出? – Robbie
輸入是非結構化的。方式列顯示在圖像中。 – swarupmishal
你到目前爲止嘗試過什麼?請發佈您的代碼。另外,請發佈您的數據,而不是數據的圖像。 – James
我是一個Python新手,我從頭開始,所以基本上不知道。 – swarupmishal
不知道最好的方法,但可以通過製作不同模式的案例來完成。 – Rohanil