0
A
回答
0
如果您要查找內容,以便您可以區分兩個網站的內容,我會建議您在HTML標記中查找文本並對其進行比較。您也許可以搜索不同的標籤並解析標籤之間的文本。或者也許標籤找到標題。
相關問題
- 1. 抓取網頁,但需要javascript查看頁面內容
- 2. 查找網頁內容的語義
- 3. 網絡爬行 - 識別Java網頁上的主要內容
- 4. Javascript網頁內容過濾
- 5. 用於獲取網頁內容的Javascript?
- 6. Html5的 - 頁腳在主要內容
- 7. 修復頁面的主要內容
- 8. 尋找網頁上的主要文字
- 9. 在asp.net 2.0中使用JavaScript創建主頁和內容頁面
- 10. 特定內容的JavaScript和主頁
- 11. Web抓取 - 如何識別網頁上的主要內容
- 12. 用javascript動態內容下載網頁
- 13. 的JavaScript不是主要內容或頭部內容
- 14. 只刮掉網頁的主要內容(忽略頁眉,頁腳和側邊欄)
- 15. 如何從網頁中提取主要內容?
- 16. 難以從新聞網頁中提取主要內容
- 17. 語言的網頁抓取JavaScript內容
- 18. 使用index.php登錄和主要內容
- 19. 如何使用Perl訪問JavaScript驅動的網頁的內容?
- 20. 使用Javascript查找最大的主要因素
- 21. 查找嵌套主頁內的控件
- 22. 需要在頁面上使用javascript的動態內容
- 23. 使用Ajax更改網頁的內容
- 24. 使用的urllib2遍歷網頁內容
- 25. 使用Javascript從網頁的文件夾下載內容
- 26. 使用ajax javascript將內容加載到網頁中的div
- 27. 使用Javascript縮放網頁的所有內容
- 28. ASP.NET如何使用__doPostBack從自定義JavaScript與主/內容頁
- 29. 從內容頁面查找控件(內部主頁面),錯誤= NullReferenceException
- 30. 在cms中查找頁面的內容
什麼是網頁的「主要內容」?這在每個地點都會發生變化。如果您可以在DOM中爲您希望定位的網站標識容器對象(例如,有時存在#content div或類似的東西),則可以只取出該容器的內容。 – binaryatrocity
要擴展@ binaryatrocity的答案,您還應該熟悉基本的HTML/DOM結構,它們將幫助您發現訪問您的信息所需的元素。 – mattsven
@ binaryatrocity.i想要找到兩個網頁之間的相似度。根據網頁內容將整個網頁內容分成兩個字符串。 – amoghpc