2010-07-15 18 views
1

我想獲得「主要內容」而不是<標籤>主要內容,其中後者是html代碼,可以使用urllib.urlopen(url)進行檢索。如何僅使用Python獲取網頁文本,就像Select-all&Copy in browser?

就像您在瀏覽器中打開網址一樣,選擇所有文本,然後複製&粘貼。

Python有沒有可能的方法?

謝謝。

+0

重複? http://stackoverflow.com/questions/3172343/extracting-readable-text-from-html-using-python – msanders 2010-07-15 10:03:24

回答

3

看看Beautiful Soup

美麗的湯是一個Python的HTML/XML分析器設計爲快速週轉項目,如屏幕抓取。三個特點使其功能強大:

  1. 美麗的湯不會嗆,如果你給它壞標記。它產生一個解析樹,與您的原始文檔大致相同。這通常足夠收集你需要的數據並逃跑。
  2. 美麗的湯提供了一些簡單的方法和Pythonic成語,用於瀏覽,搜索和修改解析樹:一個解剖文檔和提取所需內容的工具包。您不必爲每個應用程序創建自定義分析器。
  3. 美麗的湯自動將傳入文檔轉換爲Unicode和傳出文檔爲UTF-8。您不必考慮編碼,除非文檔未指定編碼,而美麗湯不能自動檢測編碼。然後您只需指定原始編碼。
相關問題