2013-03-21 36 views
1

我想了解/優化索引網站的邏輯。我是新來的HTML/JS方面的東西,所以我一直在學習。在爲網站建立索引時,我會根據每個網頁上的鏈接遞歸地深入網站。一個問題是頁面具有重複的URL和文本,如頁眉和頁腳。對於這些URL,我有一個我已經處理的URL列表。我能做些什麼來識別每頁上重複的文字?我希望我的解釋清楚。我目前有代碼(在Python中)獲取該網站的有用URL列表。現在我正在嘗試索引這些頁面的內容。是否有首選邏輯來識別或跳過這些頁面上的重複文本(如標題,頁腳和其他信息)。我正在使用BeautifulSoup +請求模塊。解析網頁索引

+0

@johnthexiii - 有沒有辦法告訴什麼是編輯一職? – R11 2013-03-21 16:33:56

+0

點擊我名字上方的藍色時間戳,我刪除了簽名(所以不喜歡那些),你拼錯了一個單詞。 – John 2013-03-21 16:40:32

+0

謝謝。不知道,所以不喜歡簽名。 – R11 2013-03-21 16:42:52

回答

1

我不太確定這是否是您所希望的,但可讀性是一種流行服務,它只是解析頁面中「有用」的內容。這是爲ios集成到safari中的服務。

它可以智能獲取頁面的內容有價值,而ignorning之類的東西頁腳/頭/廣告/等

Python目前有/紅寶石/ php和可能其他語言的開源端口。

https://github.com/buriy/python-readability

+0

有趣。這可能是我正在尋找的。我必須仔細閱讀代碼,因爲我希望瞭解到底要做什麼,以便更好地將其應用到我的代碼中。謝謝你的幫助。 – R11 2013-03-21 16:32:29