2010-02-28 30 views
0

我正在努力構建URL的索引。目標是構建和存儲一個數據結構,該數據結構將關鍵字作爲域URL(例如www.nytimes.com),並且該值將成爲與該URL關聯的一組功能。我正在尋找您對這組功能的建議。例如,我想用來存儲www.nytimes.com如下:構建URL的索引,包含哪些功能?

[www.nytimes.com:[郎鹹平:恩,alexa_rank:96,CONTENT_TYPE:新聞,spam_probability:0.0001,等等。]

爲什麼我在建造這個?那麼最終的目標就是用這個索引做一些有趣的事情,例如我可以對這個索引進行聚類並找到有趣的組等等。我有很多文本是由整個網址在整個一段時間內生成的很多時間:)所以數據不是問題。

任何類型的建議都非常受歡迎。

回答

0

讓它首先與你已經建議的一起工作。然後開始添加其他人建議的功能。

除非執行 ,否則創意將一文不值。

- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

+0

我有一個我剛剛提到的工作版本(垃圾郵件概率和內容類型除外)。我創建了一個地圖縮減工作,爲我做到了這一點。對不起,我忘了提及:)現在我需要豐富這組功能。 – shrijeet 2010-02-28 01:46:15

0

我的第一個答案所以請裸跟我...

我想,也許從這裏開始: Google white papers on IR

還可搜索白皮書對IR在谷歌也許?

另外一些東西添加到您的索引:

  1. 子域與域相關聯與域名相關的
  2. IP地址
  3. 平均頁面速度
  4. 鏈接在雅虎的域名指向 - eg鏈接:nytimes.com或search on yahoo
  5. 域上的頁面數 - site:nytimes.com on Google
  6. traffic在競爭網站或谷歌的發展趨勢
  7. whois info域的年齡,時間的長短登記等

其他一些地方的研究 - http://www.majesticseo.com/http://www.opensearch.org/Homehttp://www.seomoz.org他們都有自己的指標

我敢肯定,那裏有大量的多,但希望紅外的東西會得到齒輪呼呼:)

+0

感謝您的回答,它讓我對前方的問題有所瞭解。其中之一是子域到域映射。我最初的實驗突出了這個問題。我正在尋找解決此問題的方法(映射子域 - >域),如果您有任何想法請分享。 – shrijeet 2010-03-03 21:42:34

+0

這是我的意思是, mjimenez0.gizmodo.com \t 99 < - , ichsagpop.wordpress.com \t 99, misterdna.gizmodo.com \t 94 < - , wwww.gizmodo.com \t 93 < - , us.gizmodo.com \t 91 < - , blogs.sun.com redkitten.gizmodo.com \t 90 < - – shrijeet 2010-03-03 21:45:11

+0

我想有很多方法去這衆多。您可能希望能夠查看子和域的信息。通過編程,您需要識別子域中的域。這很容易,因爲域總是在兩個點之間,所以在你的fave語言中,你可以去掉/標識域。頂級域名(TLD)擴展你也可以去掉分析。你如何存儲這個信息取決於你,但你可能想看到1)關於該域的信息,2)關於所有子域和域的聚合的信息,3)每個子域上的信息,或許最後看tld信息 – 2010-03-04 06:25:53