2009-06-19 63 views

回答

3

渲染文本大小? 用戶可以使用他/她的瀏覽器設置隨意更改文字大小。 更不用說不同的瀏覽器呈現相同的內容略有不同。

+0

將使用瀏覽器的默認大小,除非它設置在某處。通常CSS中的字體總是至少設置一次。爬蟲應該查看DOM層次結構來確定使用了哪種CSS設置,除非它被HTML本身的內聯CSS覆蓋。相當多的工作,但可能的。雖然將標題與普通文本分開以便更好地瞭解是什麼,但可能會更容易。 – Alec 2009-06-19 21:26:02

0

如果你滿意的答案是爲「默認」,爲了這個目的沒有用戶自定義視圖(這很可能),我相信你正在尋找一個相當痛苦的情景:

  • 嵌入在您的蜘蛛中支持CSS 的渲染引擎。希望 使用與您的用戶的大多數 匹配的引擎,或者使用 所有三種通用引擎,並存儲 所有這些引擎的信息。您的消費技術在 嵌入方便程度差異很大。

  • 將正在爬行的URI加載到 渲染引擎中。

  • 使用引擎的API,查詢它的 字體規格包含你認爲 代表文本元素 (選擇這 爲此我甚至不會 開始預測策略的運動)。 如何訪問此操作完全取決於 您的 引擎的嵌入方案。

我希望這是'硬道路',但我不確定是否有'簡單'的方法。