從Java中的URL讀取內容之前加載頁面

我正在閱讀我的java代碼中的url，但是我想要讀取的頁面在加載時執行命令，並且InputStreamReader在完成加載之前讀取頁面，所以我的緩衝閱讀器僅在加載真實內容之前收集頁面上的HTML。從Java中的URL讀取內容之前加載頁面

我的主要目標是在頁面上找到單詞「sales」，但如果打開的流在加載完整頁面之前已連接，則無法執行此操作。有沒有辦法等待它加載或什麼？

這裏是我的代碼：

URL url = new URL("http://urlgoeshere.com?"+ withAParam); 
     URLConnection uc = url.openConnection(); 
     uc.connect(); 
     BufferedReader in = new BufferedReader(new InputStreamReader(uc.getInputStream())); 
     String inputLine = in.readLine(); 
     int index = -1;    
     while ((inputLine = in.readLine()) != null){ 
      index=inputLine.toLowerCase().indexOf("sales"); 
      if(index>=0){ 
      log.info("Found sales!"); 
       break;     
      } 
     } 
     if (in != null){ 
      in.close(); 
     }

來源

2011-09-07 Chris

這沒有意義。「BufferedReader」將順序讀取頁面，直到流沒有更多內容。頁面寫入的任何內容都將被讀取。如果頁面是動態的，它仍然會提取內容。如果加載後的操作是在JavaScript中完成的，那麼這種方法將無法執行，因爲它不會執行，甚至不會獲取JavaScript。 – jiggy

現在首先一些Java編碼提示，不會解決你的問題，然後一個尖端的可能。

您應該重構代碼並使用try-finally關閉finally塊中的流，以確保即使在拋出異常時它也總是關閉。然後，我不會使用帶有int的indexOf。爲了使代碼更加清晰，可讀並且不那麼冗長，直接在你的if語句中寫入if(inputLine.toLowerCase().contains("sales")){ 並刪除所有索引代碼。

您可以嘗試apache API http://hc.apache.org/httpcomponents-client-ga/index.html來獲取主頁。

來源

2011-09-07 20:54:09 Farmor

感謝您的提示！然而，我看着Apache的httpcomponents，雖然我可以像以前一樣獲取數據，但它與原始URL的openstream方法一樣 - 它仍然只加載頁面的一部分。我使用的源代碼是：http://hc.apache.org/httpclient-3.x/tutorial.html。嗯.. – Chris

從Java中的URL讀取內容之前加載頁面

回答

相關問題