解析網頁索引

我想了解/優化索引網站的邏輯。我是新來的HTML/JS方面的東西，所以我一直在學習。在爲網站建立索引時，我會根據每個網頁上的鏈接遞歸地深入網站。一個問題是頁面具有重複的URL和文本，如頁眉和頁腳。對於這些URL，我有一個我已經處理的URL列表。我能做些什麼來識別每頁上重複的文字？我希望我的解釋清楚。我目前有代碼（在Python中）獲取該網站的有用URL列表。現在我正在嘗試索引這些頁面的內容。是否有首選邏輯來識別或跳過這些頁面上的重複文本（如標題，頁腳和其他信息）。我正在使用BeautifulSoup +請求模塊。解析網頁索引

來源

2013-03-21 R11

@johnthexiii - 有沒有辦法告訴什麼是編輯一職？ – R11 2013-03-21 16:33:56

點擊我名字上方的藍色時間戳，我刪除了簽名（所以不喜歡那些），你拼錯了一個單詞。 – John 2013-03-21 16:40:32

謝謝。不知道，所以不喜歡簽名。 – R11 2013-03-21 16:42:52

我不太確定這是否是您所希望的，但可讀性是一種流行服務，它只是解析頁面中「有用」的內容。這是爲ios集成到safari中的服務。

它可以智能獲取頁面的內容有價值，而ignorning之類的東西頁腳/頭/廣告/等

Python目前有/紅寶石/ php和可能其他語言的開源端口。

https://github.com/buriy/python-readability

來源

2013-03-21 16:16:00 dm03514

有趣。這可能是我正在尋找的。我必須仔細閱讀代碼，因爲我希望瞭解到底要做什麼，以便更好地將其應用到我的代碼中。謝謝你的幫助。 – R11 2013-03-21 16:32:29

解析網頁索引

回答

相關問題