2012-07-12 193 views
0

我想通過解析器閱讀維基百科頁面,例如JWPL。 我能夠做到這一點,但我的問題是:維基百科解析器

我想計算標題和部分之間的字符,以及鏈接的數量。

使用JWPL,我可以從列表中的每個鏈接中獲取列表的列表,但我無法計算字符。總的來說,我的目標是讀一個維基百科頁面,將其數據模型轉換爲我的數據模型,並給出另一個包含我的數據模型的文件。

我的數據模型,其中將包括一個文件:部分名稱,號碼「一節和下一個鏈接或其他部分之間的字符的計數

感謝您的幫助

回答

0

有一個更好的辦法。要做到這一點,是使用wikipedia.You當前可用的服務使用一組GET請求 閱讀維基百科的頁面的元數據可以與之交互 http://en.wikipedia.org/wiki/Wikipedia:Metadata

而且MEDIAWIKI解釋了這種互動有點 http://www.mediawiki.org/wiki/API:Main_page

好運

+0

首先,感謝回答,我以同樣的方式做,我提取的頁面,我分析它JWPL分析器,但我couldnot管理計數部分和之間的字符鏈接或處理解析器。 – 2012-07-12 09:38:42

+0

你可否進一步解釋。你的意見是什麼?爲什麼你不能解析它? – 2012-07-12 09:45:45