第一:我讀過將軍;不要在像這樣的XHTML參數上使用RegEx:RegEx match open tags except XHTML self-contained tags,我確實瞭解RegEx在嵌套XHTML或XML節點上的失敗方式。 我不明白爲什麼單獨操縱XML的屬性應該使用RegEx來中斷。所以似乎有一些例外。屬性始終包含在以<開頭並以>結尾的單個節點中,其間任何其他<or>都會破壞XML,
假設我有一個人找工作這個簡單的HTML頁面: <!DOCTYPE HTML>
<html>
<head>
<meta charset="utf-8">
<title>New Job for John Doe</title>
</head>
<body>
<h1>New Job for John Doe</h1>
<p>
我主要使用Ruby來做到這一點,但我迄今爲止的攻擊計劃是如下所示: 使用gems rdf,rdf-rdfa和rdf-microdata或mida來解析給定URI的數據。我覺得這是最好映射到一個統一模式類似schema.org,例如採取何種試圖描述數據的詞彙和opengraph之間的轉換將schema.org這個YAML文件: # Schema X to schema.org conversion
我將schema.org Microdata添加到我的網站。 我的HTML代碼是這樣的: <div itemscope itemtype="http://schema.org/Organization">
<span class="title">Name of the organization</span>
<a href="http://www.ABCCompany.com/">ABC Co