2008-10-23 38 views
3

我認爲有豐富的自然語言數據與諸如reddit或digg或news.google.com等網站相關聯。自然語言/文字挖掘和Reddit /社會新聞網站

我已經做了一點與文本挖掘研究,但無法找到我可以如何使用這些工具來解析像reddit的東西。

你可以想出什麼樣的應用程序?

+0

雙重檢查標記拼寫,還要注意語法是多字標記的短劃線,即'自然語言' – unmounted 2008-10-23 04:53:38

回答

3

我在過去發現,在Reddit或Digg等網站上挖掘數據的最佳方式是首先使用他們提供的開發者API。通常,您對某個主題或趨勢有興趣,獲取該數據的唯一方法是通過建立的公共界面。您還可以解析提要,並將它們結合起來以揭示90%的想知道的內容。如果您想對通過API無法提供的數據進行深入研究,那麼您應該準備花費大量時間圍繞像cURL這樣的工具編寫自定義包裝。如果你有預算,你也可以打電話給他們,詢問他們是否提供用戶的付費研究數據。

1

我會從RSS開始,之後我可能會使用Nutch;實際上對數據做什麼更多的是你的呼叫。

0

這些都是好主意。我可以得到這些數據,但是可以在它周圍構建哪些應用程序?