我正在嘗試做一些html解析。 我正在處理一些非常動態的數據,而我的來源差別很大。 如果要更具體,我試圖解析產品信息,包括 名稱,價格和描述,我不提前知道的網頁。根據兩個元素之間的距離解析html
在整個這些頁面中,唯一基本信息保持不變的是頁面標題 它們的名稱是我查詢的項目(它們都是相互匹配的)和價格。 在不同網站中保持相同的唯一真實邏輯是不同信息集之間的接近程度。 因此,價格標籤將接近產品名稱並接近其描述。
我正在尋找一個html解析器,它能夠根據不同html標籤之間的像素距離縮小我的解析範圍。
你知道這樣的圖書館嗎? 有沒有其他辦法可以嘗試解決這個問題?
編輯:
語言,操作系統和分辨率不會改變。 你知道哪些工具可以幫助解決這個問題? 如果我找到一個足夠好的庫,我可能會決定更改我的底層操作系統和語言。
所以你不想解析HTML,你想解析一個「渲染的網頁」,是否正確?我的問題是:什麼操作系統,什麼瀏覽器,什麼顯示和什麼分辨率? –
你有多少來源?手動定義包含所需信息的元素的類/ id名稱是否可行? –
好問題,假設用戶輸入分辨率作爲參數。而對於操作系統,windows \ mac,對我來說確實不是很好。 – vondip