我想用Jena解析freebase-dump-file-free-rdf-2014-01-12-00-00.gz(25 GB)。 Jena報告了很多關於不良數據的問題。 示例 - 150.0無效,true和false值無效 這些問題通過在轉儲文件中添加雙引號括起來,並且在轉儲文件中添加了雙引號。 但是,問題仍然存在reported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])
Jena解析Freebase RDF dump的問題(2014年1月)
有什麼辦法可以預處理這些數據,這樣我就不必一一解決每個問題。 我的Java代碼:
// Open TDB dataset
String directory = "D:/test_dump";
Dataset dataset = TDBFactory.createDataset(directory);
// Assume we want the default model, or we could get a named model here
Model tdb = dataset.getDefaultModel();
// Read the input file - only needs to be done once
String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
FileManager.get().readModel(tdb, source, "N-TRIPLES");
在answers.semanticweb.com上有一個關於此問題的最近問題,[Freebase RDF dump是否符合w3 n-triples規範?](http://answers.semanticweb.com/questions/26084/does-在-遊離鹼,RDF-自卸符合到的-W3-N-三元規格)。數據在烏龜,而不是N-Triples。 –