2012-06-12 30 views

回答

0

像rdfa和microformats這樣的語義標記支持產品模式。

許多產品網站也希望您提供具有特定格式的產品數據的供稿。

5

data-屬性供作者用於他們自己的目的,用於「私人使用」。它們應該被瀏覽器,搜索引擎和其他軟件忽略,除了專門根據私人的含義分配給他們。

因此,任何使用它們的搜索引擎都會被破壞。

通常,搜索引擎不會嘗試確定哪些html元素包含有關哪個變量的數據。他們對頁面的文本內容進行操作,在某種程度上對一些標記元素(如h1,可能被認爲比其他文本具有更高的相關性)進行操作。

已經和正在開發系統用於低級元數據,其可以使用例如,具有特殊名稱或一些新屬性的類屬性。一些主要的搜索引擎已經在某些方面表達了他們的支持,尤其是http://www.schema.org。但實際上,根據尚未公開披露的原則,他們似乎主要針對非常大型的網站。

0

他們如何獲得結構化信息?

他們將解析頁面的html元素,並將它們存儲到與搜索引擎本身不同的數據結構中。

一些搜索引擎會索引元信息,但主要的搜索引擎已經開始忽視元標籤。

大多數搜索引擎考慮:

  • 純文本信息
  • 單詞和短語
  • 鏈接引用類似的信息
  • 頁面標題的
  • 接近信息

這裏是一個有趣的信息圖形,可以回答你有任何其他問題: http://ppcblog.com/how-google-works/

0

直到語義網成長(我不確定,何時以及以何種最終形式出現),從純HTML中檢索含義確實存在一些問題。如果(不一定是HTML)頁面的發佈者沒有使用某種標準方式來說明哪些數據是什麼,那麼您(作爲搜索引擎的一方)應該自己推斷語義。首先,由於提及「不是HTML」頁面是新鮮的,因此存在用於託管XML頁面的站點以及用於在瀏覽器中渲染的XSL。如果您知道正在使用的模式或DTD,XML會爲您提供更多語義信息。 (順便說一下,維基百科確實提供了以XML格式存檔的文章。)如果沒有使用XML或者沒有文檔,可以說,還有第二種方法,這需要專家和程序員。專家是分析內容並決定HTML頁面的哪些部分應被視爲存儲特定信息的模板的人員。例如,您可以爲來自某些互聯網目錄的html頁面的搜索結果制定模板,併爲每個列出的網站提取類別,評分和其他內容。這些模板可以使用任意編程語言(C++,Python等)從網頁中解析並檢測到。在此之後,您可以應用衆所周知的map-reduce算法或其他方法通過鍵值對對提取的數據進行索引。如果你看看哪些網站通常以這種模板化的方式進行處理,你會發現它們是大的,公共的,結構良好的(隨着時間的推移,結構幾乎沒有變化)。這對編寫和重用模板很有意義。當然,同樣的專家應該監控數據提取質量,並在相應的網站標記中更改某些內容時編輯模板。意義的第三個來源是詞彙表。例如,如果您擁有全面的地理名稱基礎,商店公司(包括自動製造商的子類別)以及其他分類的東西,則可以幾乎自動地將它們命名爲語義索引。我會說「差不多」,因爲你應該重點關注上下文單詞 - 在關於計算機的文檔中,Java最可能是編程語言,在旅行社的網站上,它更可能是一個島。

0

在您的特定示例中,您應該考慮使用RDFa來描述HTML文檔中的數據。您會注意到我沒有提及使用Microdata,因爲RDFa可以爲爬蟲提供更豐富,更多面的數據。在您的特定情況下,您可以利用GoodRelations詞彙表(用於電子商務,產品和服務),schema.org詞彙表(從GoodRelations借鑑)和車輛銷售本體(用於汽車)。請看下面的工作例如:

<div prefix="sc: http://schema.org/ gr: http://purl.org/goodrelations/v1# vso: http://purl.org/vso/ns#" 
    typeof="vso:Automobile gr:ProductOrServiceModel sc:Product" 
    resource="http://dbpedia.org/page/BMW_1_Series"> 
    <span property="gr:name sc:name">BMW 1 Series</span> 
</div> 

這暴露了在每一個方面你的數據,使其理解和消耗幾乎任何一個搜索引擎(包括語義搜索引擎)。此外,您還可以使用相同的URI來識別您的實例,從而鏈接到DBPedia(維基百科數據庫)中的資源。

0

有幾種方法這方面的信息可以提取:

    可以明確使用例如提供
  • 結構化信息RDF或其他元數據描述語言,如schema.org
  • 谷歌可能與電子商務業務中的價格比較服務和/或大個人蔘與者簽有合同,這些合同允許他們從數據庫中檢索結構化信息或使用特殊協議。
  • 有一些流行的電子商務引擎,所以如果他們學習如何從特定引擎的HTML中提取數據,他們可以處理大量使用該引擎的單個商店。
  • 啓發式可能被應用,以便蜘蛛識別看起來像產品描述的頁面並自動提取一些結構化信息。很多元素可以很容易識別,例如產品名稱可能是放置在H1標籤中的頁面頂部的一些文本,如果有表格,它可能會查找諸如「價格」或「顏色」之類的常見屬性名稱,並嘗試在表格附近某處查找匹配值(基於簡單模式來識別價格相對容易,其他領域也一樣)。如您所知,Google可以根據啓發式檢索具有導航菜單的典型頁面,自動提取有關網頁導航菜單的信息(無需網頁本身的任何幫助)。大多數商店頁面也具有典型佈局,產品頁面具有一些典型屬性,所以建立類似的啓發式檢測產品數據當然是可能的。
  • 現在谷歌最近開始使用完整的Chrome渲染引擎來渲染網頁,甚至運行JavaScript,他們能夠生成整個頁面的DOM模型,這意味着它們也可以應用「可視化」啓發式方法,比如「產品名稱是一些文字在頁面頂部,用更大的字體寫成環境「等等。我公司的一個產品執行類似的分析,所以我知道它很可能(雖然計算成本很高)。
相關問題