wikimedia-dumps

    1熱度

    1回答

    我正在使用read line從維基百科獲取一些文本。但讀線只返回列表,而不是我想要的文本。有沒有辦法使用替代方案或解決我的問題? public class mediawiki { public static void main(String[] args) throws Exception { URL yahoo = new URL( "http://en.wi

    1熱度

    1回答

    我想解析一下維基教科書的XML轉儲,但可能我錯過了一些東西,因爲我沒有得到任何輸出。 這是一個類似但更短的xml文件: <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:/

    0熱度

    2回答

    我應該使用wikipedia的文章鏈接數據轉儲從組織的網站中提取代表性術語。 要做到這一點我有 - 爬&下載組織的網頁。 (〜110,000) 創建了維基百科ID和術語/標題字典。 (約4000萬條記錄) 現在,我應該使用字典處理每個網頁,以識別術語並跟蹤術語ID &頻率。 對於適合內存的字典,我已將字典拆分爲更小的文件。根據我對小型數據集的實驗,上述處理時間大約爲75天。 這只是針對1個組織。我

    0熱度

    3回答

    我有一個巨大的xml文件(當前爲wikipedia dump)。這個大小約爲45 GB的xml代表了當前維基百科的整個數據。該文件的前幾行(多輸出): <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://ww w.w3.org/2001/XMLSchema-instance" xsi:

    1熱度

    1回答

    這個問題的變體現在已經有幾次被問到了,但我的問題更多的是在Java中使用XPATH的一般效率問題。 我的任務:獲取維基百科關於地理位置的文章,並從中創建分層數據結構。 我已經獲得了wiki版本的XML版本,並根據一個直觀的模式進行了重新格式化。我也讓代表不同級別的行政層級,如這一系列非常簡單的類: public class Province implements java.io.Serializa

    1熱度

    1回答

    我想從xml文件中讀取標籤值,如<title>,<title_id>。 <title>的值成功讀取。是否可以用相同的循環讀取<title>,<title_id>? 請幫我我是新來的XML。 <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.5/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-

    0熱度

    1回答

    我一直在尋找一個數據庫,它可以幫助我獲取頁面所屬的所有類別或類別中的所有頁面的列表。這不是頁面的enwiki-latest-page.sql數據庫,我試圖避免使用42 GB的XML轉儲。有沒有一些可以在線的數據庫可以幫助我解決這方面的問題?

    2熱度

    2回答

    這裏的XML文件中的一個片段,我使用: <page> <title>AccessibleComputing</title> <ns>0</ns> <id>10</id> <redirect title="Computer accessibility" /> <revision> <id>381202555</id> <paren

    2熱度

    1回答

    我使用WikiPrep處理最新的維基轉儲enwiki-20121101-頁面-articles.xml.bz2。而不是「使用Parse :: MediaWikiDump;」我用「使用MediaWiki :: DumpFile :: Compat」取代了它。並在代碼中做了適當的修改。然後,我跑到 perl wikiprep.pl -f enwiki-20121101-pages-articles.x

    11熱度

    8回答

    例如使用此維基百科轉儲: http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=lebron%20james&rvprop=content&redirects=true&format=xmlfm 是否有Python的現有的庫,我可以用它來創建的主題和值映射一個數組? 例如: {height_ft,6},{natio