我試圖將相當大(〜200M文檔)documentdb導入到Azure搜索中,但我在〜24小時後發現索引器超時。當索引器重新啓動時,它會從頭開始重新開始,而不是從開始的位置開始,這意味着我無法在搜索索引中獲得超過40M的文檔。數據源具有如下高水位標記:將Documentdb導入到Azure搜索時處理索引器超時
var source = new DataSource();
source.Name = DataSourceName;
source.Type = DataSourceType.DocumentDb;
source.Credentials = new DataSourceCredentials(myEnvDef.ConnectionString);
source.Container = new DataContainer(myEnvDef.CollectionName, QueryString);
source.DataChangeDetectionPolicy = new HighWaterMarkChangeDetectionPolicy("_ts");
serviceClient.DataSources.Create(source);
當在小分貝上測試時,高位標記似乎正常工作。
當索引器失敗時,是否應該遵守高位標記?如果不是,我該如何索引如此龐大的數據集?
謝謝尤金。以這種方式劃分數據的方式並不明顯,因此,如果您在此處發現問題,我會密切關注更新。 –
嗨伊恩,對於延遲抱歉 - 我已經看了這個並更新了答案。如果您還有其他問題,請隨時通過微軟網站eugenesh與我聯繫。謝謝! –