2011-09-23 72 views
0

我想從遠程網站url中獲取特定的HTML內容。
該網站的網址是如下,
http://www.realtor.com/realestateandhomes-detail/10216-Montwood-Drive_El-Paso_TX_79925_M78337-06548
如何從遠程URL獲取特定的HTML內容?

我想從上述網站網址獲取某些特定的信息。 在這裏,我附加了圖像,突出顯示了我想從所有突出顯示的部分的特定區域的標題,圖像和說明。 enter image description here


如何使用JQuery或Javascript或Json調用來獲取內容? 有沒有其他的方法來獲得這些?

+1

你知道刮內容是非法的嗎? – JNDPNT

+0

但我知道。這是合法的......我的一所大學開發了這個網站。 –

+0

請他爲此創建一個(公共)web服務。然後分享數據會容易得多。 – BalusC

回答

2

您可能有興趣查看pjscrape(免責聲明:這是我的項目)。這是一個使用PhantomJS的命令行工具,允許在完整的瀏覽器上下文中使用JavaScript和jQuery進行抓取。

  • 鏟運機可以在直接的JavaScript編寫,在你刮,有一個非常簡單的,jQuery的友好語法站點的上下文中執行。
  • 它可以抓取一個頁面,一組頁面,或者你可以定義一個函數來尋找更多的URL來蜘蛛在每個頁面上。
  • 它支持JSON和CSV輸出,無論是文件或者到標準輸出

如果網站是靜態的,結構是一致的,它應該是非常快的刮所有你需要成結構化數據格式的內容。

+0

無視此評論,我只是使用它作爲一個書籤,當我在一個適當的瀏覽器回來。有回報Upvote! – vzwick

+0

我剛分了這個。令人敬畏的代碼,Rabinowitz先生!如果我能再一次Upvote,我會! – vzwick

+0

謝謝@ nrabinowitz有很好的例子來獲取信息.. –

2
+0

謝謝@ JNDPNT,但我不知道PHP,我是C#開發人員..所以告訴我與我有關。 –

+0

您是否正在尋找一種在C#或Web上執行此操作的方法?這可能會幫助你找到一個C#程序:http://www.dotnetperls.com/scraping-html – JNDPNT

+0

謝謝@JNDPNT的參考鏈接 –

0

當抄襲內容,至關重要的是要考慮以下幾點:
內容是否靜態html或將它的一部分內容通過Ajax的調用來渲染?

在第一種情況下,像JNDPNT的註釋Link中使用的簡單http-get例程就足夠了。
在第二種情況下,您可能想要通過它的Webdriver來查看自動化Selenium。

在任何情況下,最好向同事詢問他是否可以爲您提供原始數據的接口,例如,通過web服務。

+0

大學不在場他離開了這個城市..但現在我獨自一人做這項工作。 –

+0

內容是靜態和固定的結構.. –

0

如果我收到您的要求,您希望用戶的瀏覽器在The Fly上颳去另一個域的內容,對不對?

由於同源策略,如果沒有通過代理請求(通過相同域上的某些腳本發送請求),或通過jsonp請求發送給返回HTML的服務的請求。

對不起,令人失望。

+0

謝謝@wildrot –

0

使用Yahoo Pipes(http://pipes.yahoo.com/pipes/)服務。 這可以用來抓取和操作頁面HTML,提取你想要的位。然後可以使用Web服務模塊將數據發佈到服務器端,或使用普通的JavaScript回調直接發送到客戶端瀏覽器。