如何構建專注的網絡爬蟲來預測基於主題搜索的頁面相關性分數？

-5

給我一步一步的過程，以簡單，快速和有效的方式來構建它。爬蟲必須以GUI形式執行並提供結果。如何構建專注的網絡爬蟲來預測基於主題搜索的頁面相關性分數？

對於輸入，我需要從搜索引擎（谷歌，Bing或雅虎）之一獲取用戶查詢的前k個URL。這些URL是種子URL，並繼續執行抓取策略以預測相關性分數。根據相關性分數執行頁面過濾，使用特定於域的表單分類器對相關URL和不相關URL進行分類，這些URL可以存儲在單獨的數據庫表中。

對於抓取策略，我需要使用自適應鏈接學習算法來預測頁面相關度分數。在這個重點抓取工具中，我需要考慮URL Word，錨文本，父頁面，URL路徑和用於預測頁面相關性分數的周邊文本（這些屬性在上述算法中考慮）。

基於該相關性分數，我需要生成圖形或表格，並與主題詞權重表相關性評分技術進行比較來證明。

來源

2016-01-20 Yogesh Waran

您能給出一個用例的例子，以便我們可以嘗試找出指向您的方向嗎？ – n1c9

請給這個很好的閱讀：http://stackoverflow.com/help/how-to-ask – n1c9

對於Python中的爬蟲，我會建議看看BeautifulSoup和請求。 http://www.crummy.com/software/BeautifulSoup/ 我認爲這是在Python 2.7和3.5中工作的最簡單的開始之一

來源

2016-01-20 18:53:35

我需要在Eclipse，Netbeans或MATLAB中實現的簡要信息 –

如果您安裝了pip，只需鍵入「pip install beautifulsoup4」 cmd和「pip安裝請求」對於大多數版本的python pip已經安裝。之後，僅僅在啓動項目：從BS4進口BeautifulSoup 從請求導入會話現在只要找到你喜歡 BTW教程：Eclipse是最值得推薦的蟒蛇 –

如何構建專注的網絡爬蟲來預測基於主題搜索的頁面相關性分數？

回答

相關問題