2014-04-02 33 views
0

我有一個數據查詢問題,並且對於如何解決它有點困難。我有2個網址列表。一個,我們可以稱之爲「正面命中」,另一個稱爲「未知命中」。我們的目標是標記每一組頁面,並在未知的url集合中找到任何匹配的標記,並使用正確的url集合。例如,如果積極集合中的第一個url具有在其上找到的標記'hello',則應該對照所有未知url頁面的標記化版本(以標記化形式)檢查該標記以查看是否存在命中。然後移動到積極設置中的第二個網址...等匹配一個標記集與其他很多其他

我可以標記化頁面沒有問題,甚至在正向url集合中的每個頁面與未知集合中的每個頁面進行交集,但這是非常慢。是否有另一種計算方法可以用來實現我的目標?

回答

0

我不是100%確定我知道你打算做什麼,但它聽起來像使用集算術將工作。

set1 = set(list1) 
set2 = set(list2) 
intersection = set1 & set2 
if intersection: 
    # there's an intersection 
    list_intersection = sorted(list(intersection)) 
else: 
    # there's no intersection