1
我正在使用scrapy。在我目前的項目中,我從PDF文件中捕獲文本。我想把它發送到一個管道進行解析。現在,我有:直接發送內容到scrapy管道
def get_pdf_text(self, response):
in_memory_pdf = BytesIO(bytes(response.body))
in_memory_pdf.seek(0)
doc = slate.PDF(in_memory_pdf)
item =OveItem()
item['pdf_text']=doc
return item
pipelines.py
class OvePipeline(object):
def process_item(self, item, spider):
.......
return item
這工作,但我認爲這將是清潔只是直接產生的結果,而不必結果附加到一個項目獲得它到管道,如:
def get_pdf_text(self, response):
in_memory_pdf = BytesIO(bytes(response.body))
in_memory_pdf.seek(0)
yield slate.PDF(in_memory_pdf)
這可能嗎?
非常感謝您! – user61629