爬行使用CasperJS

的問題是一些DOM元素都出現在Firebug但不是在頁面的源代碼做了一個PDF文件的內容的PDF文件，所以每當我嘗試抓取時，我都會看到空白的pdf頁面。

我用NightWatchJs試過同樣的東西，但它的工作，但爲了一些特定的目的，我想堅持CasperJS。

這裏是我的代碼

var casper = require('casper').create({ 
    verbose: true, 
    logLevel: 'debug', 
    userAgent: 'Mozilla/5.0 poi poi poi (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.172 Safari/537.22', 
    contentType: 'application/pdf', 
    viewportSize: { 
     width:2000, 
     height:1000 
    }, 
    pageSettings: { 
     javascriptEnabled: true, 
     loadImages: true, 
     loadPlugins: true 
    } 
}); 

var fs = require('fs'); 

casper.start('https://mozilla.github.io/pdf.js/web/viewer.html', function() { 

    this.waitForSelector("#pageContainer1", function check() { 
      var pdfContent = this.getPageContent(); 
      fs.write('/var/www/caspersJS/pdf_check.html', pdfContent, 'w+'); 

      this.capture('/var/www/caspersJS/pdf_check.png', { 
       top:0, 
       left:0, 
       height:2368, 
       width:2024, 
       format: 'png', 
       quality: 100 
      }); 
    }, function then() { 
      var pdfContent = this.getPageContent(); 
      fs.write('/var/www/caspersJS/pdf_then.html', pdfContent, 'w+'); 

      this.capture('/var/www/caspersJS/pdf_then.png', { 
       top:0, 
       left:0, 
       height:2368, 
       width:2024, 
       format: 'png', 
       quality: 100 
      }); 
    }, 60000); 
}); 
casper.run();

來源

2016-02-19 Khwab

Hi Artjom B. 如果您打開[link]（https://mozilla.github.io/pdf.js/web/viewer.html），您將看到pdf內容爲「基於跟蹤的Just-in-時間類型專業化動態「。我想抓取該內容。 – Khwab

如果您只需要文本內容，則不必使用casper或phantom，只需使用API即可獲取文本內容。見https://github.com/mozilla/pdf.js/blob/master/examples/node/getinfo.js – async5

嗨Artjom ..如果你看到我的腳本，我等待60秒，該id被加載，但問題是pdf不是隻加載。我通過捕獲屏幕證實了這一點。 – Khwab

-2

你還沒有完全等到頁面（和PDF）被加載。 #pageContainer1是第一頁的容器，但容器可能存在，但其內容尚未創建。

casper.waitForSelector(selector, then, onTimeout, timeout)將等到selector在DOM中可用，然後執行then回調。如果在timeout毫秒之後沒有找到selector等待，它將執行onTimeout。

您可以想出一個更好的選擇，可以顯示你的頁面是否被加載，或者你可以等待的時間靜態量：

this.waitForSelector("#pageContainer1") 
    .wait(5000, function() { 
     var pdfContent = this.getPageContent(); 
     fs.write('pdf_check.html', pdfContent, 'w+'); 

     this.capture('pdf_check.png'); 
    });

來源

2016-02-19 15:39:09

仍然沒有運氣。我甚至嘗試將等待時間改爲20000，但仍然出現跟隨錯誤。 [info] [phantom]第_step 3/4步：在2506ms完成。 [警告] [幻影] Casper.waitFor（）超時 [error] [phantom]等待超時5000ms過期，退出。超過5000ms的等待超時退出。 – Khwab

PhantomJS 2.1.1適用於我。您使用哪個PhantomJS版本？請註冊到'resource.error'，'page.error'，'remote.message'和'casper.page.onResourceTimeout'事件（[Example]（https://gist.github.com/artjomb/4cf43d16ce50d8674fdf#file -2_caspererrors-JS））。也許有錯誤。 –

我的Phantomjs版本是1.9.0 我嘗試添加「remote.message」，「page.error」，「resource.error」，「page.initialized」，但仍然沒有運氣。我會升級phantomjs並重試。 – Khwab

剛剛發現這個帖子的時候我在做研究有關類似問題。你可能已經轉向別的東西了。但我只想爲正在研究這些問題的人添加一點點。

據我所知，在pdf.js中查看的每個頁面內容僅在您滾動到/靠近其位置時加載。所以如果你想要的不僅僅是第1頁的信息，那麼一定要把腳本添加到你的腳本中。如果你期望獲得整個文件。您可以使用PDFView.download（）下載它。這是pdf.js中提供的函數，只要您可以查看整個pdf。

來源

2017-09-06 15:37:10

爬行使用CasperJS

回答

相關問題