這裏提出的許多問題都與我正在做的研究有關。這些問題和答案分佈廣泛,並不總是很容易找到,做手動瀏覽,有時在無關的主題中也會出現有見地的答案或評論。網站挖掘工具
我想自動找到這些相關的Q's & A,根據關鍵詞集合,然後使用這些信息作爲進一步深入研究的指針。
我可以使用哪些工具,最好是開源的,可以用於這種類型的網站挖掘?我不是一個web大師&我嘗試開發他們需要很長的時間,並在時間,我可以在我的[R花& D.
影響這裏提出的許多問題都與我正在做的研究有關。這些問題和答案分佈廣泛,並不總是很容易找到,做手動瀏覽,有時在無關的主題中也會出現有見地的答案或評論。網站挖掘工具
我想自動找到這些相關的Q's & A,根據關鍵詞集合,然後使用這些信息作爲進一步深入研究的指針。
我可以使用哪些工具,最好是開源的,可以用於這種類型的網站挖掘?我不是一個web大師&我嘗試開發他們需要很長的時間,並在時間,我可以在我的[R花& D.
影響從你的問題來看,你是否是程序員並不清楚,所以我不確定你是否在應用程序或服務的意義上使用了你想要的工具,或者庫,使網站挖掘更容易。
如果後者是這種情況,你使用紅寶石,我可以徹底推薦WWW::Mechanize。它提供了一個很好的API用於編寫腳本來搜索網頁(通過DOM或文本),跟隨鏈接並填寫表單。我已經多次使用它來組織在網站內的多個網頁上傳播的信息。
我相信紅寶石版本是基於早期的library for perl,但我不能擔保perl版本,我沒有使用它。
人類互動的工具可能是在這種情況下有用的(沒有發展成本,可能是更一致的結果,以及不斷變化的要求)。
夫婦想到:
所有基於關鍵字的標籤都附有RSS源,所以我會先訂閱相關關鍵字並搜索數據。這似乎是找到相關概念和其他相關關鍵字的最簡單方法。
我發現的大部分相關信息都與問題上的標籤無關;它們是答案文本中的關鍵字。 – slashmais 2008-10-03 06:32:57
另一種選擇是使用Yahoo! Pipes。 (demo)
您可以使用供稿網址,過濾器等的組合來在線可視化地構建這樣的系統...與編程相比,學習時間是最小的。 [編輯:時態]
_Sounds_ cool - 不幸似乎不太好?http://www.jumpcut .com/view /?id = 594F555C568011DC9D24000423CEF5B0 - 看起來像死亡:黑色沒有聲音 – slashmais 2008-10-03 06:42:07
Youtube是你的朋友 試試這個 - http://www.youtube.com/watch?v=d3h6ROs__II – tamersalama 2008-10-03 15:26:07
(我一直認爲爲他人做網絡挖掘將是一個可能的商業呼叫)。我是一個單獨的私人,沒有資金來支付他人這樣做;對我而言,這是艱難的或不行的。 :-( – slashmais 2008-10-03 06:29:53