2015-04-05 24 views
8

我原型與我的電腦上工作的pagerank一個小型搜索引擎。我有興趣在其上創建知識圖表,並且應該只返回在正確的上下文中查詢的網頁,類似於Google如何找到與搜索問題相關的答案。我在知識圖形周圍看到很多宣傳,但沒有很多文獻,幾乎沒有像建立一個指南那樣的僞代碼。有沒有人知道這些知識圖是如何在內部工作的很好的參考資料,所以不需要創建關於知識圖的模型?如何構建知識圖?

回答

25

知識圖是流行語。這是將模型和技術放在一起才能取得成果的總和。 旅途中的第一站從Natural language processingOntologiesText mining開始。這是一個廣泛的人工智能領域,請到here進行該領域的研究調查。

在構建自己的模型之前,我建議您使用專用工具箱(如gensim)嘗試不同的標準算法。您將瞭解tf-idf,LDA,文檔特徵向量等。

我假設您想使用文本數據,如果您想要使用其他圖像進行圖像搜索,它是不同的。音頻部分相同。

建築模型是一個僅僅是第一步,谷歌的知識圖譜中最困難的部分是實際擴展到數十億的請求中的每一天......

良好的加工流水線可建「容易」上頭Apache Spark,「當代Hadoop」。它提供了一個彈性分佈式數據存儲,如果您想擴展,這是強制性的。

如果你想保留你的數據作爲一個圖形,如在圖形理論(如pagerank),實時查詢,我建議你使用Bulbs這是一個框架,「像圖形的ORM,而不是SQL,你使用Graph-traveral語言Gremlin來查詢數據庫「。例如,您可以將後端從Neo4j切換到OpenRDF(如果您使用本體,則很有用)。

對於圖分析,您可以使用Spark,GraphX模塊或GraphLab

希望它有幫助。

+2

我知道我遲了兩年......但是如果你想深入瞭解一些這些概念,你是否會提出任何文獻(書籍/期刊等)? – jawsnnn 2017-06-15 18:27:18