我想從website刮一個曲目列表。我的相關代碼:刮痕軌道列表
page.css('ol').each do |line|
subarray = line.text.strip.split(" - ")
end
這使得陣列採取的第一個藝人到第一個索引(我想),但增加了跟蹤和二軌的藝術家進入第二指標是這樣的:
subarray[0] = Rick Wilhite
subarray[1] = Magic Water [Still Music]
Edward
subarray[2] = Into A Better Future [Giegling]
Kassem Mosse
subarray[3] = Zolarem [Mikrodisko Recordings]
After Hours
我包括嵌套的標籤,所以我的代碼讀取:
page.css('ol li').each do |line|
subarray = line.text.strip.split(" - ")
end
但這似乎只留下subarray[0]
顯示"Klara Lewis"
和subarray[1]
顯示"Shine [Editions Mego]"
,這是曲目列表中的最後一首曲目。所有其他索引值都是空白的。
更復雜的是,我想從最終成爲曲目值的標籤中刪除唱片公司。我相信正確的正則表達式是\[[\d\D]*?\]
,但我的印象是這需要在數據進入數組之前應用,以避免迭代數組。我試着將它作爲第二分隔符分割(有' - '
一起),沒有工作,我也試圖改變我的代碼來測試它:
page.css('ol').each do |line|
subarray = line.text.strip.split("\[[\d\D]*?\]")
end
但也好像不工作。任何人都可以幫助我或給我正確的指針?
絕對重新找到伴侶,現在完全得到它,讓它工作!非常感謝! – northborders 2015-03-20 12:45:18