2011-02-02 111 views
-2

我正在制定一個用於規範化URL的項目(即應識別映射到同一網頁的不同URL,並像搜索引擎一樣減少冗餘)。用於URL規範化的數據集

所以我想要一個包含不同URL的數據集來測試我的方法。請提供標準化數據集的鏈接。

我在C#中實現這個項目,我希望你的建議。提前致謝。

+1

你能舉出一些Url的例子,它們會正常化是一樣的嗎?另外,這裏的數據集是什麼意思? .NET數據集?如果有其他內容,請提供示例 – 2011-02-02 11:12:12

回答

1

既然你問I'd like your suggestions,留下你的問題非常開放的,並會引起你可能會得到哪一種建議,我會繼續前進,給你我的建議。雖然我承認我不是100%確定你想要解決什麼問題?您是否要求提供程序/代碼特定的建議?一個如何建立這樣一個項目的策略?或者你希望收集靈感/想法,並改善你現有的工作流程?如果你正在尋求第三件事,我會建議看看兩個場景,受到我的一位人工智能教師曾經給過的講座的啓發。讓我們一會俯衝到如何蟻羣組織起來:

  • 自上而下的方法:一個幻想想象女王在antcology他們的路線處方爲每一個螞蟻子殖民地,從而正火多跟蹤各種螞蟻都去的地點,然後看起來你想把螞蟻聚集在一起,讓每個小組只用一條路線去達到他們的目標,並去掉可能的重複路線。這是如何使他們的路線更高效的一種方法。在現實中螞蟻的實際工作方式不同:

  • 自下而上的方法:現實: 單個螞蟻就沒有什麼意義,但是當整個蟻羣是研究,組織透露。這是因爲螞蟻本身遵循其他螞蟻的香味痕跡,這樣才能跟隨彼此,最終找到他們的巢穴。這樣,聰明並不需要來自中央數據庫的上方/來自中心數據庫,但是每隻螞蟻內置的一點智能都會使相同的路徑可重複使用。 >>通過這種方式,您可能想要在每個需要規範化的超鏈接中構建標準化技術。

我希望這可以給你希望的建議,否則,如果你的問題不是戰略爲基礎,但具體的代碼問題相關的,問的問題,在它的程序代碼,這往往是更容易比找到解決最好的策略。祝你好運!我的2美分。