我不知道是否有已可用其做類似的東西scrapely庫例如,基於正則表達式
https://github.com/scrapy/scrapely
它所做的是你舉一個例子URL,然後你給的資料你希望從HTML中提取..
url1 = 'http://pypi.python.org/pypi/w3lib/1.1'
data = {'name': 'w3lib 1.1', 'author': 'Scrapy project', 'description': 'Library of web-related functions'}
,然後你開始這個規則通過簡單:
s.train(url1, data)
現在,我可以從不同的URL中提取相同的數據...
但有其不相同,但對於原始文本,任何圖書館......
例如:
raw_text = "|foo|bar,name = how cool"
然後我想從中提取「酒吧」。
我知道,我可以寫一個簡單的正則表達式規則,並獲取與此做..但是否有任何可用的庫,它解決了這個作爲一個基於實例的學習問題..
即,而不是指定一個正則表達式規則,然後通過它傳遞數據..
而是我指定一個實例,我想提取什麼,它會自動生成規則?
希望我有所幫助。
相關:http://txt2re.com/ – jfs
一些理論:論學習正則語言(http://cstheory.blogoverflow.com/2011/08/on-learning-regular-languages/) 。注意:在實踐中,它可能更簡單。 – jfs