2016-03-05 76 views
3

在我的研究項目中,我需要從維基百科轉儲中提取平行文檔。換句話說,我已經下載了英文和意大利維基百科的轉儲文件。現在,我想解析它們和英文轉儲中的每篇文章,在意大利轉儲中找到它的翻譯(應該由中介語鏈接完成),並將它們存儲在同一個文件中,以便後續進行一些跨語言文本處理。從維基百科轉儲提取並行文本

我搜索了一點點,但我找不到任何代碼用於此目的。但是,由於我看過很多作者都做過的論文,所以在從頭開始發明輪子之前,我認爲可能首先要問。

任何想法是讚賞。

謝謝。

回答