搜索引擎如何從HTML頁面中獲取結構化數據？

0

像rdfa和microformats這樣的語義標記支持產品模式。

許多產品網站也希望您提供具有特定格式的產品數據的供稿。

來源

2012-06-12 02:20:09 Tiggerito

5

data-屬性供作者用於他們自己的目的，用於「私人使用」。它們應該被瀏覽器，搜索引擎和其他軟件忽略，除了專門根據私人的含義分配給他們。

因此，任何使用它們的搜索引擎都會被破壞。

通常，搜索引擎不會嘗試確定哪些html元素包含有關哪個變量的數據。他們對頁面的文本內容進行操作，在某種程度上對一些標記元素（如h1，可能被認爲比其他文本具有更高的相關性）進行操作。

已經和正在開發系統用於低級元數據，其可以使用例如，具有特殊名稱或一些新屬性的類屬性。一些主要的搜索引擎已經在某些方面表達了他們的支持，尤其是http://www.schema.org。但實際上，根據尚未公開披露的原則，他們似乎主要針對非常大型的網站。

來源

2012-06-12 04:32:11

0

他們如何獲得結構化信息？

他們將解析頁面的html元素，並將它們存儲到與搜索引擎本身不同的數據結構中。

一些搜索引擎會索引元信息，但主要的搜索引擎已經開始忽視元標籤。

大多數搜索引擎考慮：

純文本信息
鏈接引用類似的信息
頁面標題的
接近信息

這裏是一個有趣的信息圖形，可以回答你有任何其他問題： http://ppcblog.com/how-google-works/

來源

2012-06-19 16:42:34

0

直到語義網成長（我不確定，何時以及以何種最終形式出現），從純HTML中檢索含義確實存在一些問題。如果（不一定是HTML）頁面的發佈者沒有使用某種標準方式來說明哪些數據是什麼，那麼您（作爲搜索引擎的一方）應該自己推斷語義。首先，由於提及「不是HTML」頁面是新鮮的，因此存在用於託管XML頁面的站點以及用於在瀏覽器中渲染的XSL。如果您知道正在使用的模式或DTD，XML會爲您提供更多語義信息。（順便說一下，維基百科確實提供了以XML格式存檔的文章。）如果沒有使用XML或者沒有文檔，可以說，還有第二種方法，這需要專家和程序員。專家是分析內容並決定HTML頁面的哪些部分應被視爲存儲特定信息的模板的人員。例如，您可以爲來自某些互聯網目錄的html頁面的搜索結果制定模板，併爲每個列出的網站提取類別，評分和其他內容。這些模板可以使用任意編程語言（C++，Python等）從網頁中解析並檢測到。在此之後，您可以應用衆所周知的map-reduce算法或其他方法通過鍵值對對提取的數據進行索引。如果你看看哪些網站通常以這種模板化的方式進行處理，你會發現它們是大的，公共的，結構良好的（隨着時間的推移，結構幾乎沒有變化）。這對編寫和重用模板很有意義。當然，同樣的專家應該監控數據提取質量，並在相應的網站標記中更改某些內容時編輯模板。意義的第三個來源是詞彙表。例如，如果您擁有全面的地理名稱基礎，商店公司（包括自動製造商的子類別）以及其他分類的東西，則可以幾乎自動地將它們命名爲語義索引。我會說「差不多」，因爲你應該重點關注上下文單詞 - 在關於計算機的文檔中，Java最可能是編程語言，在旅行社的網站上，它更可能是一個島。

來源

2012-06-20 21:20:08 Stan

0

在您的特定示例中，您應該考慮使用RDFa來描述HTML文檔中的數據。您會注意到我沒有提及使用Microdata，因爲RDFa可以爲爬蟲提供更豐富，更多面的數據。在您的特定情況下，您可以利用GoodRelations詞彙表（用於電子商務，產品和服務），schema.org詞彙表（從GoodRelations借鑑）和車輛銷售本體（用於汽車）。請看下面的工作例如：

<div prefix="sc: http://schema.org/ gr: http://purl.org/goodrelations/v1# vso: http://purl.org/vso/ns#" 
    typeof="vso:Automobile gr:ProductOrServiceModel sc:Product" 
    resource="http://dbpedia.org/page/BMW_1_Series"> 
    <span property="gr:name sc:name">BMW 1 Series</span> 
</div>

這暴露了在每一個方面你的數據，使其理解和消耗幾乎任何一個搜索引擎（包括語義搜索引擎）。此外，您還可以使用相同的URI來識別您的實例，從而鏈接到DBPedia（維基百科數據庫）中的資源。

來源

2012-06-21 12:22:56

0

有幾種方法這方面的信息可以提取：

結構化信息RDF或其他元數據描述語言，如schema.org。
谷歌可能與電子商務業務中的價格比較服務和/或大個人蔘與者簽有合同，這些合同允許他們從數據庫中檢索結構化信息或使用特殊協議。
有一些流行的電子商務引擎，所以如果他們學習如何從特定引擎的HTML中提取數據，他們可以處理大量使用該引擎的單個商店。
啓發式可能被應用，以便蜘蛛識別看起來像產品描述的頁面並自動提取一些結構化信息。很多元素可以很容易識別，例如產品名稱可能是放置在H1標籤中的頁面頂部的一些文本，如果有表格，它可能會查找諸如「價格」或「顏色」之類的常見屬性名稱，並嘗試在表格附近某處查找匹配值（基於簡單模式來識別價格相對容易，其他領域也一樣）。如您所知，Google可以根據啓發式檢索具有導航菜單的典型頁面，自動提取有關網頁導航菜單的信息（無需網頁本身的任何幫助）。大多數商店頁面也具有典型佈局，產品頁面具有一些典型屬性，所以建立類似的啓發式檢測產品數據當然是可能的。
現在谷歌最近開始使用完整的Chrome渲染引擎來渲染網頁，甚至運行JavaScript，他們能夠生成整個頁面的DOM模型，這意味着它們也可以應用「可視化」啓發式方法，比如「產品名稱是一些文字在頁面頂部，用更大的字體寫成環境「等等。我公司的一個產品執行類似的分析，所以我知道它很可能（雖然計算成本很高）。

來源

2012-06-21 19:47:27

搜索引擎如何從HTML頁面中獲取結構化數據？

回答

相關問題