如何複製Chrome能夠從錯誤的HTML'解析'DOM？

我使用cheerio和node.js的解析一個網頁，然後使用CSS選擇器找到它的數據。 Cheerio在格式錯誤的html上表現不佳。 jsdom更寬容，但兩者的行爲都不一樣，而且在某些情況下，其他人都能正常工作時，我都看到了這兩種情況。如何複製Chrome能夠從錯誤的HTML'解析'DOM？

鉻似乎做了很好的工作與同畸形的HTML創建一個DOM。

我怎樣才能複製Chrome的創建從不良HTML DOM一個能力，然後給這個DOM的「乾淨」的HTML表示，以cheerio進行處理？

這樣，我就知道它會是簡潔（wellformed）的HTML。我通過設置page.content嘗試了phantomjs，但是當我讀取page.content的值時，html仍然是格式錯誤的。

來源

2012-08-16 Trindaz

會愛像你描述提交的jsdom與任何解析失敗的bug。 jsdom努力模擬100％準確度的瀏覽器解析算法，因此它應該適用於您的用例;如果沒有，那是我們要解決的一個錯誤。 – Domenic 2013-09-10 12:56:07

這似乎這樣的伎倆，利用phantomjs節點和jQuery：

function cleanHtmlWithPhantom(html, callback){ 
    var phantom = require('phantom'); 
    phantom.create(
     function(ph){ 
      ph.createPage(
       function(page){ 
        page.injectJs(
         "/some_local_location/jquery_1.6.1.min.js", 
         function(){ 
          page.evaluate(
           function(){ 
            $('html').html(newHtml) 
            return $('html').html(); 
           }.toString().replace(/newHtml/g, "'"+html+"'"), 
           function(result){ 
            callback("<html>" + result + "</html>") 
            ph.exit(); 
           } 
          ) 
         } 
        ); 
       } 
      ) 
     } 
    ) 
} 

cleanHtmlWithPhantom(
    "<p>malformed", 
    function(newHtml){ 
     console.log(newHtml); 
    } 
)

來源

2012-08-16 08:39:34 Trindaz

所以，你可以使用https://github.com/aredridel/html5/這是很多更寬容，並從我的經驗在那裏工作失敗jsdom。

但我最後一次測試它，幾月回來，這是超級慢。我希望它變得更好。然後也可以產生一個phantomjs進程，並在標準輸出上輸出要將其饋送回節點的數據的json。

來源

2012-08-16 07:05:14 3on

我如何獲得它的JSON表示？ – Trindaz 2012-08-16 07:12:52

先嚐試html5。這可能是你想要的。由於PhantomJS的本質，PhantomJS起步緩慢。儘管如此，這裏是phantomJS腳本的一個例子，你可以使用exec和JSON.parse輸出。 – 3on 2012-08-16 07:20:18

謝謝3on - 但我錯過了什麼？這個例子的鏈接在哪裏？ – Trindaz 2012-08-16 07:32:46

如何複製Chrome能夠從錯誤的HTML'解析'DOM？

回答

相關問題