我們目前正在研究一個NLP項目並需要一個旨在從tripadvisor.com提取的語料庫。我們期待將輸出結果作爲幾種類型:評論和評論的評分。我的問題是:任何關於從TripAdvisor抓取數據的建議
是否有任何爬行工具最適合此目的?它一定很容易使用,python是首選。美麗的湯是我找到的,但我想在這裏問它的任何其他建議。
是否有任何完整的工具只是爲了這個目的?我的意思是一個爲tripadvisor.com寫的程序?
任何有關數據(評論/評級)從巨型網站爬行的建議將不勝感激。
該語料庫將用於大學研究的情感分析,我們需要儘快抓取它。
數據尚未準備好,但要儘快抓取。數據準備就緒後,我可以共享數據,但是您確定scrapy?你怎麼看美麗的湯? @Muatik – clancularius
我認爲scrapy是抓取網頁任務更體面的框架。漂亮的肥皂不是一回事,也不是爬蟲框架。儘管你不使用scrapy,美麗的湯或類似的東西,你仍然可以抓取網頁,然後使用正則表達式。 – Muatik
任何更新? – minocha