2012-03-09 40 views
1

我正在嘗試構建近網頁重複分析器。從那裏我可以得到類似的網頁輸入進行這種實驗。 (爬行搜索引擎對於特定的查詢沒有似乎是一個不錯的選擇)近似重複頁面分析的網頁

回答

0

這裏有一些想法:從不同的網站 在不同的網站

  • 新聞文章
  • 維基百科在

    • 新聞稿當前版本和舊版本(編輯是變化)
    • 不同服務器上的Unix手冊頁
    • 不同格式的Internet RFC:文本,XML或HTML

    下面是一些示例網址的RFC:

  • +0

    感謝。這些似乎很有用,我會爲我的應用程序嘗試這些鏈接。 – Gaurav 2012-04-17 19:02:54