2015-05-05 85 views
0

我寫下了下面的代碼。我需要從下面的URL中提取價格。我正在用java編寫代碼。 http://www.walmart.com/ip/VIZIO-E70-C3-70-1080p-240Hz-Class-LED-Smart-HDTV/43310251從沃爾瑪提取HTML內容html頁面

String regEx = "<span\\s+class=\"sup\">.+</span>[\n]*(\\d+(,)*\\d+)[\n*]<span\\s+class=\"visuallyhidden\">[.]*</span>[\n]*<span\\s+class=\"sup\">(\\d+)"; 
Pattern p1 = Pattern.compile(regEx); 
System.out.println("Vikash"); 
while ((line = in .readLine()) != null) { 
    sb.append(line + "\n"); 

} 
m = p1.matcher(sb); 
while (!m.hitEnd()) { 
    if (m.find()) { 
     System.out.println("$" + m.group()); 
    } 
} 
+0

我沒有得到價格。我應該得到1398.00。請幫助 –

+2

使用jsoup jar來提取html內容http://jsoup.org/ –

+2

爲什麼你不使用他們的API? –

回答

0

如果您無法使用API​​的,你應該使用這個框架。看看http://jsoup.org

它會生成一個結構化的文檔,並允許您遍歷ids,類,標籤等。

E.g.

findElementsByClass("sup")。當我回到桌面時,我可以提供一些示例代碼。

+0

當然。通過示例代碼將有幫助 –

+0

我在HTML頁面中看到的模式如下。如果你以此爲例,它會更好。我需要提取價格。

$ 1,398 . 00