2013-01-16 53 views
3

我們目前正在研究一個NLP項目並需要一個旨在從tripadvisor.com提取的語料庫。我們期待將輸出結果作爲幾種類型:評論和評論的評分。我的問題是:任何關於從TripAdvisor抓取數據的建議

  • 是否有任何爬行工具最適合此目的?它一定很容易使用,python是首選。美麗的湯是我找到的,但我想在這裏問它的任何其他建議。

  • 是否有任何完整的工具只是爲了這個目的?我的意思是一個爲tripadvisor.com寫的程序?

  • 任何有關數據(評論/評級)從巨型網站爬行的建議將不勝感激。

該語料庫將用於大學研究的情感分析,我們需要儘快抓取它。

回答

0

對於Python你可以使用scrapy,這是一個熟練的履帶式框架,http://scrapy.org/

另外,我請你分享你所收集的數據。如果tripadvisor數據已準備就緒,則不需要抓取。或者至少,你可以分享抓取腳本。

+1

數據尚未準備好,但要儘快抓取。數據準備就緒後,我可以共享數據,但是您確定scrapy?你怎麼看美麗的湯? @Muatik – clancularius

+0

我認爲scrapy是抓取網頁任務更體面的框架。漂亮的肥皂不是一回事,也不是爬蟲框架。儘管你不使用scrapy,美麗的湯或類似的東西,你仍然可以抓取網頁,然後使用正則表達式。 – Muatik

+1

任何更新? – minocha

0

回答您的問題在各自的順序:

  • 你需要的是一個網頁抓取工具。爬蟲程序自動執行瀏覽頁面的過程 ,而刮板程序將HTML轉換爲 結構化數據。在不同的 平臺上有很多工具可用。不知道美麗的湯。你在設計 刮板還是會買它?

  • 您可以根據您的 定製需求準備好製作語料庫或製作Web刮板。您可以請求您的數據或使用ScraperWiki手動編寫刮板 。我不知道您的數據結構,但可以使用Google電子表格抄襲一些數據。你可以看到here。只要看看是什麼類型的數據被刮掉了,如果它類似於你的數據,那麼你可以使用它。

  • 某些網站或其特定目錄無法被抓取。你可以 檢查他們的robots.txt知道一樣。在從中抓取數據之前,請閱讀該網站的政策 。

你還沒有問,但here是一些免費的情緒分析工具。

相關問題