2011-03-08 221 views
0

我已經嘗試了一堆技術抓取這個URL(見下文),以及由於某種原因標題回來不正確。如果我看的頁面與螢火蟲的來源,我可以看到正確的標題標籤,但是,如果我認爲這是不同的頁面的源代碼。抓取網站使用PHP

使用多個PHP技術,我得到了相同的結果。 Digg能夠抓取頁面並解析正確的標題。

這裏的鏈接:http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

正確的標題是「如何讓你的iPhone(或其他iOS設備)更喜歡Android」的 解析的標題是「Lifehacker的,技巧和下載的做事情」

這是正常的嗎?他們如何做到這一點?有沒有辦法獲得正確的標題?

+0

參見:http://stackoverflow.com/questions/3009380/whats-the-shebang-hashbang-in-facebook-and-new-twitter -urls換 – 2011-03-08 04:28:32

回答

1

這是因爲當你提出要求使用PHP(無任何JS支持)你得到Lifehacker的的主頁 - 這是lifehacker.com。

Lifehacker的交換他們的CMS近日,這樣所有的請求到初始頁面,然後在hashbang後一切由JS腳本在主頁讀取找出需要投放的頁面。您需要修改程序,以考慮到這一點

編輯 有這些鏈接

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

http://www.tbray.org/ongoing/When/201x/2011/02/09/Hash-Blecch