我想了解/優化索引網站的邏輯。我是新來的HTML/JS方面的東西,所以我一直在學習。在爲網站建立索引時,我會根據每個網頁上的鏈接遞歸地深入網站。一個問題是頁面具有重複的URL和文本,如頁眉和頁腳。對於這些URL,我有一個我已經處理的URL列表。我能做些什麼來識別每頁上重複的文字?我希望我的解釋清楚。我目前有代碼(在Python中)獲取該網站的有用URL列表。現在我正在嘗試索引這些頁面的內容。是否有首選邏輯來識別或跳過這些頁面上的重複文本(如標題,頁腳和其他信息)。我正在使用BeautifulSoup +請求模塊。解析網頁索引
Q
解析網頁索引
1
A
回答
1
我不太確定這是否是您所希望的,但可讀性是一種流行服務,它只是解析頁面中「有用」的內容。這是爲ios集成到safari中的服務。
它可以智能獲取頁面的內容有價值,而ignorning之類的東西頁腳/頭/廣告/等
Python目前有/紅寶石/ php和可能其他語言的開源端口。
+0
有趣。這可能是我正在尋找的。我必須仔細閱讀代碼,因爲我希望瞭解到底要做什麼,以便更好地將其應用到我的代碼中。謝謝你的幫助。 – R11 2013-03-21 16:32:29
相關問題
- 1. 解析網頁
- 2. PrintDocument:解析索引
- 3. GSON解析索引的JSON
- 4. 阻止搜索引擎索引網頁
- 5. 從網頁解析HTML
- 6. Google如何解析網頁?
- 7. 從網頁解析XML
- 8. 使用BeautifulSoup4解析網頁
- 9. 解析網頁中的sre.findall()
- 10. BeautifulSoup無法解析網頁?
- 11. 使用php解析網頁
- 12. Jsoup解析一個網頁
- 13. 關於網頁解析
- 14. 解析HTML(網頁)JavaSE
- 15. 解析一個網頁
- 16. HTML解析器網頁
- 17. 如何解析網頁
- 18. 解析JSON供稿網頁
- 19. 從php解析網頁
- 20. 解析網頁使用PowerShell
- 21. 網頁解析無硒
- 22. 谷歌網頁索引
- 23. 網頁解析器網址re.findall()
- 24. 使用.lower解析網站時,列表索引超出範圍()
- 25. 的網頁,索引頁稍微改變
- 26. JavaScript引擎解析並運行Javascript網頁(perl/python)
- 27. 使用python和beautifulsoup搜索解析的網頁時出錯
- 28. 解析Ruby中的網頁以從中檢索URL
- 29. 爲elasticsearch索引解析文本並獲取索引值
- 30. 如何解析NSString從索引到索引?
@johnthexiii - 有沒有辦法告訴什麼是編輯一職? – R11 2013-03-21 16:33:56
點擊我名字上方的藍色時間戳,我刪除了簽名(所以不喜歡那些),你拼錯了一個單詞。 – John 2013-03-21 16:40:32
謝謝。不知道,所以不喜歡簽名。 – R11 2013-03-21 16:42:52