爲什麼不把你的抓取的信息放到[某些]三重存儲並使用SPARQL來查詢它?如果這只是一系列處理過程中的一個步驟,那麼您不需要去一家巨型三聯商店,只需要使用Jena和TDB來進行平板/文件存儲,甚至只需要內存模型。
SPARQL的優點在於,您可以擁有想要使該列表成爲圖表的所有靈活性,然後查詢該圖表。
由於您遇到的一些URI可能是主體,謂詞或對象,因此您確實需要了解哪些圖形模式最適合進行更多處理。你喜歡s,p,o triple,其中p = wikiPageExternalLink?如果是這樣,SPARQL查詢那個,在結果集上找到對象值和開心處理。
請注意,與在dbpedia圖形中跟隨主題鏈接相比,該三重模式中的某些對象將是字符串文字(例如「http:// ...」),也可能是那些您想要處理的對象。 S,P,S2。再次,SPARQL用isLiteral()來救援。
如果它是一個主題,我認爲它會限定它爲「語義網絡URI」,因爲至少應該有更多關於它的RDF語句 - 而不是字符串文字,它只是一些URI的字符串在圖中沒有其他重要性。相應的函數將是isIRI,所以你可以將你在兩個桶中找到的URL(文字和IRI)分開。
見例如在官方規格: http://www.w3.org/TR/rdf-sparql-query/#func-isIRI
SPARQL,特別耶拿的ARQ,有一堆的功能,過濾器,並且可應用於正則表達式來使它儘可能地靈活(例如,也許你想將某些域/模式列入白名單/黑名單,或在繼續之前執行一些字符串操作)。