2014-02-18 104 views
3

我正在將manifoldcf或mcf與alfresco cms集成爲使用CMIS查詢並使用solr作爲存儲所有索引的輸出通道的存儲庫連接器。我能做得很好&可以在索引索引中搜索文檔。ManifoldCF作業調度如何運行?

現在作爲實現的一部分,我打算引入多個存儲庫,如sharepoint,文件系統等,所以現在我有三個文檔存儲庫:alfresco,sharepoint &文件系統。我打算計劃通過每個存儲庫運行的作業,並按特定間隔抓取這些作業。但我有以下爭論。

  1. 我雖然調度頻繁的工作,我想確保MCF工作只挑其中要麼添加了新的或更新的說,這些內容我有100個文檔DRING目前的工作運行,但在接下來的工作運行說110所以我只想運行新的10個文檔而不是整個110個文檔的作業。
  2. 由於可用的mcf教程相對較少,我無法確保mcf作業以這種方式運行,但我認爲它足夠智能以表現這種方式,但再次沒有證據證實它。
  3. 我想了解更多關於mcf作業調度類型的信息:每次掃描一次文檔/直接重新掃描文檔。同樣,我想了解更多關於工作調用的信息:complete/minimal。我會爲成爲新手而感到抱歉。
  4. 另外我正在考慮做一些自定義編碼,以確保只有最新的/更新的文檔纔有資格進行處理,但再次只能通過代碼來獲取更少的文檔。
  5. 在這種情況下doc定製編碼是明智的還是mcf提供所有這些功能OOTB。

非常感謝提前。

回答

0

ManifoldCF根據您爲作業配置的內容安排作業。

  1. 這取決於你倉庫連接器是怎麼寫的時候,通常作業運行運行庫連接器的getDocumentVersion(),如果文檔規範的版本是不同的,當是早期版本,歧管索引該文檔其他不。通常您的文檔版本字符串是文檔的最後修改日期

  2. 不幸的是,從開發者角度來看,歧管並不包含很多文檔,您可能打賭是通過代碼。這是很有說服力的。

  3. 這是最小的是作爲每千立方英尺文檔

使用列出行動的「最小」的變體將執行工作的最小可能量,考慮到模型的連接類型的工作用途。在某些情況下,這將意味着增加和修改索引,但沒有檢測到刪除mcf doc jobs

  • 你應該實現在公共的String [] getDocumentVersions你的邏輯(.. )

  • OOTB功能,就夠了。但有一點需要考慮文件的許可。如果文檔的權限被更改,您可以選擇更改文檔的版本。