2017-07-05 99 views
0

是否有可能從圖像元素報廢的文本,如圖片:在Python閱讀從圖像文本硒

Picture

我沒有一切,但

Salzufer 16 
10587 Berlin 

是在圖像的形狀?

我用硒webdriver的,需要像刮地址,聯繫方式,經濟活動部門數據..

+0

這似乎更像是'OCR'比網頁抓取。 – TheDarkKnight

+0

似乎文本被加密,JavaScript在運行時解密它。但是,硒不應該發生這種情況。 –

回答

0

如果檢查HTML(搜索地址),你會看到,該地址實際上出現在JavaScript代碼,生成一個谷歌地圖。

你可以使用正則表達式來利用這個。

假設您已經對執行搜索的部分進行了編碼,現在只需提取地址。你的硒對象被命名爲驅動程序。那麼它會是這樣的:

import re 
page_source = driver.page_source 
add_pattern = '{address: \"(.*?)\"}' 
address = re.search(page_source, add_pattern).group(1) 
print(address) 
0

看來,你正在尋找被嵌入的textRender.aspx的「文本」的說法文文件。您可能會考慮對其進行逆向工程。

否則,對於更通用的OCR你可以使用谷歌API的願景https://cloud.google.com/vision/

+0

對於答案的第一部分,你能更具體嗎?我該怎麼辦? –