2015-03-19 34 views
0

建設Solr的索引我有以下格式的大文本文件:使用大的文本文件

00001,234234|234|235|7345 
00005,788|298|234|735 

你可以把值之前,密鑰和我想要做的是快速和骯髒的方法來查詢這些密鑰並查找每個密鑰的結果集。看了一下後,我發現solr提供了一個很好的框架來做到這一點。

  • 什麼是起點?
  • 我可以使用python讀取文件並使用solr編譯該索引(搜索 引擎)嗎?
  • 有沒有不同的機制來做到這一點?

回答

1

你絕對可以使用pysolr這是一個python庫。如果數據是關鍵值形式,您可以像下面這樣在Python中讀取它: https://pypi.python.org/pypi/pysolr/3.1.0

要更好地控制搜索,您需要修改schema.xml文件,使其具有文本文件中的密鑰。

在SOLR中獲取數據後,您可以按照上述鏈接執行搜索。

1

您可以使用UpdateCSV處理程序直接在Solr中爲您的數據建立索引:您只需在curl調用中的fieldnames參數中指定目標字段名稱(或者將它們作爲文件的第一行添加(如果更容易) 。不需要自定義代碼。

請記住檢查|分隔值的目標字段是否使用該字符分割爲令牌。

有關詳細信息,請參閱https://wiki.apache.org/solr/UpdateCSV