在Python閱讀從圖像文本硒

是否有可能從圖像元素報廢的文本，如圖片：在Python閱讀從圖像文本硒

我沒有一切，但

Salzufer 16 
10587 Berlin

是在圖像的形狀？

我用硒webdriver的，需要像刮地址，聯繫方式，經濟活動部門數據..

來源

2017-07-05 Dejan Samardžija

這似乎更像是'OCR'比網頁抓取。 – TheDarkKnight

似乎文本被加密，JavaScript在運行時解密它。但是，硒不應該發生這種情況。 –

如果檢查HTML（搜索地址），你會看到，該地址實際上出現在JavaScript代碼，生成一個谷歌地圖。

你可以使用正則表達式來利用這個。

假設您已經對執行搜索的部分進行了編碼，現在只需提取地址。你的硒對象被命名爲驅動程序。那麼它會是這樣的：

import re 
page_source = driver.page_source 
add_pattern = '{address: \"(.*?)\"}' 
address = re.search(page_source, add_pattern).group(1) 
print(address)

來源

2017-07-05 12:42:51 jlaur

看來，你正在尋找被嵌入的textRender.aspx的「文本」的說法文文件。您可能會考慮對其進行逆向工程。

否則，對於更通用的OCR你可以使用谷歌API的願景https://cloud.google.com/vision/

來源

2017-07-05 12:10:09

對於答案的第一部分，你能更具體嗎？我該怎麼辦？ –

在Python閱讀從圖像文本硒

回答

相關問題