我試圖用他們今天的菜單來顯示辦公室周圍的午餐場所列表。但問題是提供午餐菜單的網站並不總是提供相同類型的內容。混合內容的一組頁面的最佳方式
例如,一些網站提供了一個不錯的JSON輸出。 Look at this one,它分開提供英文/芬蘭課程名稱,我需要的一切都可用。有這樣的其他人。
但其他人,並不總是有一個很好的輸出。 Like this one。內容以簡單的HTML佈局,而英文和芬蘭食品名稱並沒有完全排列。此外,像(L,VL,VS,G等)的食物屬性只是正常的文字,如食物名稱。
在您看來,什麼是以不同格式提取所有這些可用數據並將其轉換爲可用數據的最佳方式?我試圖用Node.js(& phantomjs等)製作一個刮板,但它只適用於一個網站,並且在食品名稱不準確的情況下。
在此先感謝。