2017-04-14 35 views
0

從Blob提取器接收文件對於當前層而言太大的錯誤,這是基本的。我將升級到更高層,但我注意到最大尺寸目前是256MB。使用Azure搜索blob提取器處理大文件

當我有PPTX文件,主要是視頻和音頻,但我有興趣的文本,有沒有辦法索引這些? blob提取器最大文件大小實際上意味着什麼?

我可以告訴提取器只採取第一個X MB或字符,只是停止?

回答

1

有在團塊索引兩個相關的限制:

  1. 最大的是你打文件大小限制。如果文件大小超過該限制,索引器不會嘗試下載它併產生錯誤,以確保您知道該問題。我們不僅僅需要第一個N字節的原因是因爲爲了正確解析許多格式,需要整個文件。您可以將斑點標記爲可滑動或將索引器配置爲忽略大量錯誤,如果您希望它在遇到過大的斑點時取得進展。

  2. 提取文本的最大尺寸。如果文件包含的文本比這更多,索引器會將N個字符限制爲最大值,幷包含警告信息,以便您能夠意識到問題所在。當然,無法提取的內容(例如至少今天的視頻)不會影響這個限制。

您需要索引的PPTX有多大?我會在評論中添加我的聯繫信息。

+1

您需要索引的PPTX有多大?你可以在eugenesh的微軟域名 –

+0

上聯繫我,感謝Eugene。是的,由於嵌入的視頻和圖像,文件非常大。很多時候,他們超過500MB,有時可以達到1.5GB + –

+0

嗨保羅,請給我發電子郵件進一步討論。謝謝! –