2013-05-16 65 views
1

我正在構建一些能夠或多或少地從任意網站提取關鍵信息的東西。例如,如果我抓取了一份麥當勞頁面,想要通過編程的方式瞭解麥當勞的開幕式和閉幕時間,那麼做一個聰明的方法是什麼?如何巧妙地從HTML頁面提取信息?

在一般情況下,也許我也想知道麥當勞是賣雞翅還是麥當勞的地址。

我在想的是我將有一個特定的案例time,wingsaddress並且具有這三種情況中的每一種都是唯一的代碼。

但我不知道我該如何解決這個問題。我已經將網站抓取,HTML和相關信息已經解析爲JSON。我目前的做法是找到title標籤,並檢查title標籤是否包含關鍵詞,如addresslocation等。如果title包含那些key words,那麼我將查看當前頁面並識別與地址類似的內容塊,如內容爲城市或國家或內容的詞StStreet

我想知道是否有更好的方法來尋找關鍵數據,並尋找更好的起點或反彈一些想法和whatnot。或者即使有很好的文章可以閱讀,但這也會很棒。

讓我知道如果這不清楚。

感謝您的幫助。

回答

2

爲了解析這樣的HTML頁面,你必須知道它們的結構。這個問題沒有通用的解決方案。每個網頁都需要自己的解決方案。但是,一種好的方法是確保HTML代碼也是有效的XML,然後在已知位置使用use XPath to access elements。也許甚至有一個像標準HTML解決方案的XPath(它並不總是有效的XML)。通過這種方式,您可以爲每個頁面定義一組XPath,如果這些頁面存在特定元素,那麼這些XPath就會提供給您。