2016-04-18 51 views
-2

我即將開展一個關於「分析博客或論壇數據」的項目,所以我想知道我們可以從博客或論壇中提取什麼樣的數據,我應該如何開始使用我們可以從博客或論壇中爲Web抓取項目提取什麼樣的數據?

+0

你的問題可能會很有趣,但它對於細節非常模糊。這是關於特定博客還是所有博客?你在尋找一個工具集還是現有的項目?也許從https://en.wikipedia.org/wiki/Web_scraping開始? – qux

+0

我在談論任何一般的博客和尋找工具集,謝謝 –

+0

你正在解決問題的方向完全相反。而不是尋找某種數據,修復你想了解的東西。然後從博客收集所需的數據。 – displayName

回答

0

首先,您應該決定使用哪種編程語言。然後,你應該考慮使用網絡刮板。

對於不同的編程語言有不同的。對於Java,例如有jsoup

至於可以獲得什麼數據,你必須首先考慮頁面的格式。但是,我會建議收集的數據包括:

用戶名 照片在網站上 相關的用戶名數據(註冊日期,帖子數,白金會員身份,照片,電話號碼,E-mail地址,姓名,地址等(如果適用)), 博客文章的標題, 在論壇上提問, 每個問題的答案數, 博文中的錯別字, 日期相關信息。

相關問題