我想寫一個程序在這個頁面上使用lynx命令「http://www.rottentomatoes.com/movie/box_office.php」,我似乎無法將我的頭包裹在某些問題....自己獲得標題。我的問題是一個標題可以包含特殊字符,數字,並且所有標題的長度都是可變的。我想寫一個正則表達式,可以解析整個頁面,並找到像這樣的行...... (我在標題和下一個數字之間加上了空格,這就是它出去了多少星期,以區分標題和星期發佈)正則表達式分析的問題
1 -- 30% The Vow 1 $41.2M $41.2M $13.9k 2958
2 -- 53% Safe House 1 $40.2M $40.2M $12.9k 3119
3 -- 42% Journey 2: The Mysterious Island 1 $27.3M $27.3M $7.9k 3470
4 -- 57% Star Wars: Episode I - The Phantom Menace (in 3D) 1 $22.5M $22.5M $8.5k 2655
5 1 86% Chronicle 2 $12.1M $40.0M $4.2k 2908
我與開始時的正則表達式是:
/(\d+)\s(\d+|\-\-)\s(\d+\%)\s
如果有人可以幫助我弄清楚如何抓住標題成功,將不勝感激!先謝謝了。
是你的任務解析頁面,或者寫一個正則表達式解析的頁面?如果它是前者,你應該考慮使用DOM庫而不是正則表達式。 – Borealid 2012-02-15 17:21:55
正在使用正則表達式來執行此操作嗎?由於數據已經合理,爲什麼不剪切適當的列,然後應用修剪功能? – VeeArr 2012-02-15 17:22:52
我完全同意你們兩個,但分配是使用lynx命令並解析所有信息=/ – Trance339 2012-02-15 17:25:56