我試圖在維基百科上找到所有圖像的完整列表,然後我可以將其過濾到公有領域。我已經下載從這裏的SQL轉儲:在維基百科中查找和下載圖像轉儲
http://dumps.wikimedia.org/enwiki/latest/
,並研究了DB模式:
我想我明白它,但是當我選擇一個樣本圖像從一個維基百科頁面我無法在垃圾箱中的任何地方找到它。例如:
http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG
我已經做了轉儲「圖像」,「imagelinks」在grep和「頁」尋找「Carrizo_2a.JPG」,它不是發現。
這些轉儲沒有完成嗎?我誤解了結構?有一個更好的方法嗎?
此外,要向前跳一步:在我篩選了我的列表後,我想下載一大批圖像(數千)後,我看到一些提及我需要從網站的鏡像中執行此操作以防止重載維基百科/維基媒體。如果對此也有任何指導,那將會有所幫助。
以下是顯示相同症狀的第二張圖像的示例。我已經嘗試了一堆,並沒有找到一個單一的,但它是在轉儲。 http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg – 2013-04-05 21:54:42