是否有可能從圖像元素報廢的文本,如圖片:在Python閱讀從圖像文本硒
我沒有一切,但
Salzufer 16
10587 Berlin
是在圖像的形狀?
我用硒webdriver的,需要像刮地址,聯繫方式,經濟活動部門數據..
是否有可能從圖像元素報廢的文本,如圖片:在Python閱讀從圖像文本硒
我沒有一切,但
Salzufer 16
10587 Berlin
是在圖像的形狀?
我用硒webdriver的,需要像刮地址,聯繫方式,經濟活動部門數據..
如果檢查HTML(搜索地址),你會看到,該地址實際上出現在JavaScript代碼,生成一個谷歌地圖。
你可以使用正則表達式來利用這個。
假設您已經對執行搜索的部分進行了編碼,現在只需提取地址。你的硒對象被命名爲驅動程序。那麼它會是這樣的:
import re
page_source = driver.page_source
add_pattern = '{address: \"(.*?)\"}'
address = re.search(page_source, add_pattern).group(1)
print(address)
看來,你正在尋找被嵌入的textRender.aspx的「文本」的說法文文件。您可能會考慮對其進行逆向工程。
否則,對於更通用的OCR你可以使用谷歌API的願景https://cloud.google.com/vision/
對於答案的第一部分,你能更具體嗎?我該怎麼辦? –
這似乎更像是'OCR'比網頁抓取。 – TheDarkKnight
似乎文本被加密,JavaScript在運行時解密它。但是,硒不應該發生這種情況。 –