我正在使用SimpleHTMLDOM解析器從網頁中提取HTML數據。但我遇到了諸如www.coursera.com這樣的網站,其中網頁是在運行時生成的。如何從運行時生成的網頁中提取HTML標籤
我需要知道有沒有人試過解析這樣的頁面?
我是這個領域的新手,所以關於這個主題的一些理論會幫助我理解解析網頁。
我正在使用SimpleHTMLDOM解析器從網頁中提取HTML數據。但我遇到了諸如www.coursera.com這樣的網站,其中網頁是在運行時生成的。如何從運行時生成的網頁中提取HTML標籤
我需要知道有沒有人試過解析這樣的頁面?
我是這個領域的新手,所以關於這個主題的一些理論會幫助我理解解析網頁。
在這種情況下,它可能更容易(雖然不總是)。用於生成內容的數據可能是ajax請求的一部分,您可以直接向這些ajax端點發送請求並解析端點的響應。
通常這將是JSON,與HTML相比,這很容易解析。
你怎麼能確定一些HTML不是直接在Javascript上生成的,而不是使用AJAX? – MatRt 2013-03-03 22:10:33
它當然可以。但數據必須來自某個地方。尋找那個來源,而不是試圖解析最終的結果。 – datasage 2013-03-03 22:11:38
你們可以繼續查看www.coursera.com的源代碼 – shailbenq 2013-03-03 22:12:32