2017-08-17 100 views
0

網頁閱讀更多我想刮從網站的評論,我不能夠湊具有「更多」選項評論。 我只能讀取數據,直到閱讀更多。 我正在使用BeautifulSoup。 任何幫助表示讚賞。如何刮評論與使用BeautifulSoup

回答

0

你將不得不使用硒給出的點擊選項,這將讓你找到儘快將更多的標籤或類別,點擊它,因爲它出現在你將不得不再次點擊它..而當它不顯示出來,你將不得不放棄你所需要的內容,

+0

請問您能解釋什麼是bs4中的點擊選項以及如何使用它? – user5444075

+0

@ user5444075我的錯誤我在談論硒... bs4不支持點擊。你應該ATLEAST發佈您的代碼,或者您正試圖廢除,從而使他人能夠幫助你 – Shaamuji

+0

我試圖得到該鏈接的網站,「閱讀更多」指着我得到了一個標籤與onclick屬性。我不能用它來擴大評論嗎? – user5444075

0

這裏是你如何能得到的所有評論全文演示。運行它並獲得結果。執行後稍等片刻。無需點擊任何鏈接即可這樣做。

import requests ; from bs4 import BeautifulSoup 

soup = BeautifulSoup(requests.get("http://www.mouthshut.com/product-reviews/Lakeside-Chalet-Mumbai-reviews-925017044").text, "html.parser") 
for title in soup.select("a[id^=ctl00_ctl00_ContentPlaceHolderFooter_ContentPlaceHolderBody_rptreviews_]"): 
    items = title.get('href') 
    if items: 
     broth = BeautifulSoup(requests.get(items).text, "html.parser") 
     for item in broth.select("div.user-review p.lnhgt"): 
      print(item.text) 
+0

好了,所以我想這個代碼和它的工作,現在從我的理解,你第一次請求的網站,然後而是採用「閱讀更多」搜索審查的標題的鏈接,要求通過獲取其「href」屬性的鏈接,將它儲存在肉湯中,最後搜索評論並循環瀏覽其段落(如果我錯了,糾正我)。有兩件事打擾了我,一次是在打印標題時,我得到了#排除的完整鏈接(爲什麼是這樣?)以及你從哪裏得到了「div.user-review p」(我知道它在我們訪問的鏈接中,但是) – user5444075

+0

檢查下面頁面的元素,你會發現[「div.user-review p」] http://www.mouthshut.com/review/Lakeside-Chalet-Mumbai-review-mlmqulpsq btw ,我使用從「和平,安靜,真實的視角!」中提取的鏈接提出第二次請求。 – SIM

+0

此外,我試着你的代碼,並找不到爲什麼審查打印2次。我也檢查了頁面,沒有發現任何冗餘。你能幫我解決這個問題嗎? – user5444075