我正在努力構建URL的索引。目標是構建和存儲一個數據結構,該數據結構將關鍵字作爲域URL(例如www.nytimes.com),並且該值將成爲與該URL關聯的一組功能。我正在尋找您對這組功能的建議。例如,我想用來存儲www.nytimes.com如下:構建URL的索引,包含哪些功能?
[www.nytimes.com:[郎鹹平:恩,alexa_rank:96,CONTENT_TYPE:新聞,spam_probability:0.0001,等等。]
爲什麼我在建造這個?那麼最終的目標就是用這個索引做一些有趣的事情,例如我可以對這個索引進行聚類並找到有趣的組等等。我有很多文本是由整個網址在整個一段時間內生成的很多時間:)所以數據不是問題。
任何類型的建議都非常受歡迎。
我有一個我剛剛提到的工作版本(垃圾郵件概率和內容類型除外)。我創建了一個地圖縮減工作,爲我做到了這一點。對不起,我忘了提及:)現在我需要豐富這組功能。 – shrijeet 2010-02-28 01:46:15