我在python中構建了一個文檔檢索引擎,它返回按用戶提交的查詢的相關性排列的文檔。我有一個包含PowerPoint文件的文檔集合。對於PPT,在結果頁面上,我想向用戶展示前幾個幻燈片標題,以給他/她更清晰的圖片(有點像我們在Google搜索中看到的)。python-pptx從幻燈片標題中提取文本
所以基本上,我想從使用python的PPT文件的幻燈片標題中提取文本。我正在使用python-pptx包。目前我的實現看起來是這樣的
from pptx import Presentation
prs = Presentation(filepath) # load the ppt
slide_titles = [] # container foe slide titles
for slide in prs.slides: # iterate over each slide
title_shape = slide.shapes[0] # consider the zeroth indexed shape as the title
if title_shape.has_text_frame: # is this shape has textframe attribute true then
# check if the slide title already exists in the slide_title container
if title_shape.text.strip(""" [email protected]#$%^&*)(_-+=}{][:;<,>.?"'/<,""")+ '. ' not in slide_titles:
slide_titles.append(title_shape.text.strip(""" [email protected]#$%^&*)(_-+=}{][:;<,>.?"'/<,""")+ '. ')
但你可以看到我假設每張幻燈片上零索引的形狀是幻燈片標題,這顯然不是這種情況每次。任何想法如何實現這一目標?
在此先感謝。