2016-01-20 12 views
-5

給我一步一步的過程,以簡單,快速和有效的方式來構建它。爬蟲必須以GUI形式執行並提供結果。如何構建專注的網絡爬蟲來預測基於主題搜索的頁面相關性分數?

對於輸入,我需要從搜索引擎(谷歌,Bing或雅虎)之一獲取用戶查詢的前k個URL。這些URL是種子URL,並繼續執行抓取策略以預測相關性分數。根據相關性分數執行頁面過濾,使用特定於域的表單分類器對相關URL和不相關URL進行分類,這些URL可以存儲在單獨的數據庫表中。

對於抓取策略,我需要使用自適應鏈接學習算法來預測頁面相關度分數。在這個重點抓取工具中,我需要考慮URL Word,錨文本,父頁面,URL路徑和用於預測頁面相關性分數的周邊文本(這些屬性在上述算法中考慮)。

基於該相關性分數,我需要生成圖形或表格,並與主題詞權重表相關性評分技術進行比較來證明。

+0

您能給出一個用例的例子,以便我們可以嘗試找出指向您的方向嗎? – n1c9

+1

請給這個很好的閱讀:http://stackoverflow.com/help/how-to-ask – n1c9

回答

1

對於Python中的爬蟲,我會建議看看BeautifulSoup和請求。 http://www.crummy.com/software/BeautifulSoup/ 我認爲這是在Python 2.7和3.5中工作的最簡單的開始之一

+0

我需要在Eclipse,Netbeans或MATLAB中實現的簡要信息 –

+1

如果您安裝了pip,只需鍵入「pip install beautifulsoup4」 cmd和「pip安裝請求」 對於大多數版本的python pip已經安裝。 之後,僅僅在啓動項目: 從BS4進口BeautifulSoup 從請求導入會話 現在只要找到你喜歡 BTW教程:Eclipse是最值得推薦的蟒蛇 –