wikimedia-dumps

    0熱度

    1回答

    我想比較dbpedia 2015-10數據集(http://wiki.dbpedia.org/Downloads2015-10)與原始維基百科源文件。他們提供的鏈接(http://services-resources/datasets/dataset-2015-10/dump-dates-dbpedia-2015-10)目前無法訪問。任何人都知道如何獲取原始數據?

    2熱度

    2回答

    維基百科提供了他們所有的頁面瀏覽量,每小時文本文件。 (例如,請參閱http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/) 對於項目,需要提取2014年的關鍵字及其關聯的頁面視圖。但看到一個文件(代表1小時,因此總計24 * 365個文件)爲〜80MB。這可能是一個艱鉅的任務,手動。 我的問題: 1.有什麼辦法可以自動下載文件嗎

    3熱度

    1回答

    例如,我看到dumps.wikimedia.org/other/pagecounts-raw/,但沒有國家特定的數據...

    0熱度

    1回答

    我目前索引維基百科轉儲(實際上是一個從2012年開始,但格式是一樣的,不管),想了解性能成本(規模及處理時間)。 我使用Lucene的Java 4.x版和存儲索引中的所有垃圾場。我在一臺配有i5處理器和8 GB RAM的機器上工作。我剛剛完成索引5000個創建索引的文章,大小爲5GB,耗時約10分鐘。 這意味着3.5萬篇文章,這將是一個3.5 TB指數,它會帶我5天左右,如果索引時間是線性的(這是

    1熱度

    1回答

    在Wikipedia中,消除歧義的XML轉儲文章包含指令{{disambiguation}},其內容位於其中。 這對英文維基百科來說很簡單。 但是,此指令會跨語言進行更改,例如在西班牙語維基百科中,文章將包含{{desambiguación}}。 我試過查詢wikipedia元數據API。具體的一個magicwords: https://es.wikipedia.org/w/api.php?act

    0熱度

    1回答

    我測試與教程列出的Hello World示例的JWPL API: https://code.google.com/p/jwpl/source/browse/trunk/de.tudarmstadt.ukp.wikipedia.api/src/main/java/de/tudarmstadt/ukp/wikipedia/api/tutorial/T1a_HelloWorld.java 但是我收到下面

    0熱度

    1回答

    過程wiki轉儲使用gwtwiki和java處理一個wikimedia轉儲文件(例如:http://dumps.wikimedia.org/enwiki/20150304/enwiki-20150304-pages-meta-history9.xml-p000897146p000925000.bz2)。我對Java很新穎(我可以理解並編寫簡單的Java腳本),並使用eclipse。我已經導入了gw

    0熱度

    1回答

    我試圖使用API​​以下獲得在維基百科中的所有網頁標題命名空間獲取維基百科頁面標題標籤。如果是,那麼我使用相同的請求,但將BASE_PAGE_TITLE更改爲響應中apcontinue屬性的值。 我的應用程序自3天以來一直在運行,檢索次數超過30M,而在轉儲中則爲大約13M。 有什麼想法?

    1熱度

    1回答

    基於我之前的問題Spark and Python use custom file format/generator as input for RDD我認爲我應該能夠通過sc.textFile()解析基本上任何輸入,然後使用我或某些庫自定義函數。 現在我特別試圖使用gensim框架來解析wikipedia轉儲。我已經在我的主節點和我所有的工作節點上安裝了gensim,現在我想使用gensim bui

    10熱度

    1回答

    我下載德國Wikipedia轉儲dewiki-20151102-頁面,文章,multistream.xml。我的簡短問題是:在這種情況下,「多流」意味着什麼?