0
我想建立一個新聞彙總系統,我將不得不每天從新的新聞門戶處理網頁。我如何從網頁中提取新聞文章的主要圖像,而無需爲每個門戶編寫html提取處理程序。我怎麼能猜出當大多數頁面中有10-15個隨機廣告和側面圖像時,哪個是文章的主要圖像。我試圖選擇每頁最大的圖像,但這並沒有很好的工作,並給出了許多誤報如何從隨機文章中提取主圖像?
我想建立一個新聞彙總系統,我將不得不每天從新的新聞門戶處理網頁。我如何從網頁中提取新聞文章的主要圖像,而無需爲每個門戶編寫html提取處理程序。我怎麼能猜出當大多數頁面中有10-15個隨機廣告和側面圖像時,哪個是文章的主要圖像。我試圖選擇每頁最大的圖像,但這並沒有很好的工作,並給出了許多誤報如何從隨機文章中提取主圖像?
有沒有這樣的事情,在網站上的「主要」圖像。這個概念完全依賴於上下文,就新聞而言,它可能是「與文本相關的圖像」,但這是非常具體的情況 - 如果新聞中有許多圖像顯示某種情況會怎樣?
由於很難定義你的真正含義,所以基於機器學習的方法似乎是合理的,因爲「通過示例學習」應該更容易實現。
我會提取每個圖像的最有前途的特點:
然後火車就可以儘可能簡單的分類器(貝葉斯或Logistic迴歸)收集一套樣品。
如何識別新聞容器?同樣的方法?文字內容最多的元素? –
可能最小(在包含的意義上)div的文本最多 – lejlot