我正在構建一些能夠或多或少地從任意網站提取關鍵信息的東西。例如,如果我抓取了一份麥當勞頁面,想要通過編程的方式瞭解麥當勞的開幕式和閉幕時間,那麼做一個聰明的方法是什麼?如何巧妙地從HTML頁面提取信息?
在一般情況下,也許我也想知道麥當勞是賣雞翅還是麥當勞的地址。
我在想的是我將有一個特定的案例time
,wings
和address
並且具有這三種情況中的每一種都是唯一的代碼。
但我不知道我該如何解決這個問題。我已經將網站抓取,HTML和相關信息已經解析爲JSON。我目前的做法是找到title
標籤,並檢查title
標籤是否包含關鍵詞,如address
或location
等。如果title
包含那些key words
,那麼我將查看當前頁面並識別與地址類似的內容塊,如內容爲城市或國家或內容的詞St
或Street
。
我想知道是否有更好的方法來尋找關鍵數據,並尋找更好的起點或反彈一些想法和whatnot。或者即使有很好的文章可以閱讀,但這也會很棒。
讓我知道如果這不清楚。
感謝您的幫助。