任何關於從TripAdvisor抓取數據的建議

我們目前正在研究一個NLP項目並需要一個旨在從tripadvisor.com提取的語料庫。我們期待將輸出結果作爲幾種類型：評論和評論的評分。我的問題是：任何關於從TripAdvisor抓取數據的建議

該語料庫將用於大學研究的情感分析，我們需要儘快抓取它。

對於Python你可以使用scrapy，這是一個熟練的履帶式框架，http://scrapy.org/

另外，我請你分享你所收集的數據。如果tripadvisor數據已準備就緒，則不需要抓取。或者至少，你可以分享抓取腳本。

2013-01-19 21:17:04 Muatik

數據尚未準備好，但要儘快抓取。數據準備就緒後，我可以共享數據，但是您確定scrapy？你怎麼看美麗的湯？ @Muatik – clancularius

我認爲scrapy是抓取網頁任務更體面的框架。漂亮的肥皂不是一回事，也不是爬蟲框架。儘管你不使用scrapy，美麗的湯或類似的東西，你仍然可以抓取網頁，然後使用正則表達式。 – Muatik

任何更新？ – minocha

回答您的問題在各自的順序：

你需要的是一個網頁抓取工具。爬蟲程序自動執行瀏覽頁面的過程，而刮板程序將HTML轉換爲結構化數據。在不同的平臺上有很多工具可用。不知道美麗的湯。你在設計刮板還是會買它？
您可以根據您的定製需求準備好製作語料庫或製作Web刮板。您可以請求您的數據或使用ScraperWiki手動編寫刮板。我不知道您的數據結構，但可以使用Google電子表格抄襲一些數據。你可以看到here。只要看看是什麼類型的數據被刮掉了，如果它類似於你的數據，那麼你可以使用它。
某些網站或其特定目錄無法被抓取。你可以檢查他們的robots.txt知道一樣。在從中抓取數據之前，請閱讀該網站的政策。

你還沒有問，但here是一些免費的情緒分析工具。

2013-01-22 12:54:50 SilentAssassin

回答