我正在開發小書籤並面臨此任務:我需要從任何頁面收集所有價格。從使用JavaScript的頁面收集價格
問題是,價格可能是多種格式($ 19.00,15.45 $等),不包括不同的貨幣和html標記。好消息是我正在使用jQuery。
如果有人有一個想法,怎麼能做到,請分享:)
提前感謝!
我正在開發小書籤並面臨此任務:我需要從任何頁面收集所有價格。從使用JavaScript的頁面收集價格
問題是,價格可能是多種格式($ 19.00,15.45 $等),不包括不同的貨幣和html標記。好消息是我正在使用jQuery。
如果有人有一個想法,怎麼能做到,請分享:)
提前感謝!
如果沒有一致的標記,你可能不得不爲已知模式編寫一些正則表達式。例如:
要拍攝類似$ 19.00,你會使用一個正則表達式,看起來像這樣的模式:
\$[0-9]*.?[0-9]{1,2}
既然你的目標數據是如此非結構化我不知道有一個單一的對此有很好的回答。您需要識別您正在查找的模式,並編寫正則表達式來識別它們。
測試你的正則表達式在這裏:http://regexpal.com/
好運。
-R
謝謝,我會研究它。 – Grin 2012-02-20 14:27:36
我們可以有一個絕妙的主意我的朋友,但沒有標記沒有解決辦法;-) – 2012-02-20 12:44:29
你需要寫一個價格的提取程序,它能夠處理所有可能的格式。一般來說,處理數據質量問題並沒有什麼靈丹妙藥。如果你可以指定一些約束條件,可能會有一些技巧建議。 – 2012-02-20 12:45:17
「任何頁面」是指你自己的頁面(相同的域名)還是外部頁面? – 2012-02-20 12:47:14