如何巧妙地從HTML頁面提取信息？

我正在構建一些能夠或多或少地從任意網站提取關鍵信息的東西。例如，如果我抓取了一份麥當勞頁面，想要通過編程的方式瞭解麥當勞的開幕式和閉幕時間，那麼做一個聰明的方法是什麼？如何巧妙地從HTML頁面提取信息？

在一般情況下，也許我也想知道麥當勞是賣雞翅還是麥當勞的地址。

我在想的是我將有一個特定的案例time,wings和address並且具有這三種情況中的每一種都是唯一的代碼。

但我不知道我該如何解決這個問題。我已經將網站抓取，HTML和相關信息已經解析爲JSON。我目前的做法是找到title標籤，並檢查title標籤是否包含關鍵詞，如address或location等。如果title包含那些key words，那麼我將查看當前頁面並識別與地址類似的內容塊，如內容爲城市或國家或內容的詞St或Street。

我想知道是否有更好的方法來尋找關鍵數據，並尋找更好的起點或反彈一些想法和whatnot。或者即使有很好的文章可以閱讀，但這也會很棒。

讓我知道如果這不清楚。

感謝您的幫助。

來源

2013-05-16 Raymond Huang

爲了解析這樣的HTML頁面，你必須知道它們的結構。這個問題沒有通用的解決方案。每個網頁都需要自己的解決方案。但是，一種好的方法是確保HTML代碼也是有效的XML，然後在已知位置使用use XPath to access elements。也許甚至有一個像標準HTML解決方案的XPath（它並不總是有效的XML）。通過這種方式，您可以爲每個頁面定義一組XPath，如果這些頁面存在特定元素，那麼這些XPath就會提供給您。

來源

2013-05-18 08:04:24

如何巧妙地從HTML頁面提取信息？

回答

相關問題