我有多個文本文件,這些文件用於存儲網站的源頁面。所以每個文本文件都是一個源頁面。讀取保存在文本文件中的源文件並提取文本
我需要使用下面的代碼保存在文本文件中一個div類提取文本:
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("zing.internet.accelerator.plus.txt"))
txt = soup.find('div' , attrs = { 'class' : 'id-app-orig-desc' }).text
print txt
我已經檢查了我的湯對象的類型,以確保它不使用字符串find方法,同時尋找爲div類。 類型湯對象的
print type(soup)
<class 'bs4.BeautifulSoup'>
我已經從一個the previous post所取出的參考,並書面beautifulsoup語句內公開聲明。
錯誤:從頁面
Traceback (most recent call last):
File "html_desc_cleaning.py", line 13, in <module>
txt2 = soup.find('div' , attrs = { 'class' : 'id-app-orig-desc' }).text
AttributeError: 'NoneType' object has no attribute 'text'
來源:
請勿上傳圖片添加文字,因爲圖片無用 – styvane