如何僅使用Python獲取網頁文本，就像Select-all＆Copy in browser？

我想獲得「主要內容」而不是<標籤>主要內容，其中後者是html代碼，可以使用urllib.urlopen（url）進行檢索。如何僅使用Python獲取網頁文本，就像Select-all＆Copy in browser？

就像您在瀏覽器中打開網址一樣，選擇所有文本，然後複製&粘貼。

Python有沒有可能的方法？

謝謝。

2010-07-15 ibread

重複？ http://stackoverflow.com/questions/3172343/extracting-readable-text-from-html-using-python – msanders 2010-07-15 10:03:24

看看Beautiful Soup。

美麗的湯是一個Python的HTML/XML分析器設計爲快速週轉項目，如屏幕抓取。三個特點使其功能強大：

美麗的湯不會嗆，如果你給它壞標記。它產生一個解析樹，與您的原始文檔大致相同。這通常足夠收集你需要的數據並逃跑。

美麗的湯提供了一些簡單的方法和Pythonic成語，用於瀏覽，搜索和修改解析樹：一個解剖文檔和提取所需內容的工具包。您不必爲每個應用程序創建自定義分析器。

美麗的湯自動將傳入文檔轉換爲Unicode和傳出文檔爲UTF-8。您不必考慮編碼，除非文檔未指定編碼，而美麗湯不能自動檢測編碼。然後您只需指定原始編碼。

來源

2010-07-15 09:02:01

如何僅使用Python獲取網頁文本，就像Select-all＆Copy in browser？

回答

相關問題