給我一步一步的過程,以簡單,快速和有效的方式來構建它。爬蟲必須以GUI形式執行並提供結果。如何構建專注的網絡爬蟲來預測基於主題搜索的頁面相關性分數?
對於輸入,我需要從搜索引擎(谷歌,Bing或雅虎)之一獲取用戶查詢的前k個URL。這些URL是種子URL,並繼續執行抓取策略以預測相關性分數。根據相關性分數執行頁面過濾,使用特定於域的表單分類器對相關URL和不相關URL進行分類,這些URL可以存儲在單獨的數據庫表中。
對於抓取策略,我需要使用自適應鏈接學習算法來預測頁面相關度分數。在這個重點抓取工具中,我需要考慮URL Word,錨文本,父頁面,URL路徑和用於預測頁面相關性分數的周邊文本(這些屬性在上述算法中考慮)。
基於該相關性分數,我需要生成圖形或表格,並與主題詞權重表相關性評分技術進行比較來證明。
您能給出一個用例的例子,以便我們可以嘗試找出指向您的方向嗎? – n1c9
請給這個很好的閱讀:http://stackoverflow.com/help/how-to-ask – n1c9