2010-09-23 21 views
0

我爲我的項目抓取了一些博客,並在鏈接和鏈接中提取了一些功能,如文檔的長度。這些博客中的每一個都會談論某個特定的主題,每個主題都可能有很多文章,而且我最多需要爲每個主題決定一個或兩個重要的博客。我如何爲這些功能分配權重來選擇重要的博客?決定參數的權重(類似於Google PageRank)

我可以使用機器學習算法,但有數百萬個博客,我不想對它們進行註釋。有沒有一種數學證明的方法來決定權重?

感謝
巴拉

回答

0

一個建議:如果決定A的秩確定有多少頁引用A.