2011-05-25 81 views

回答

2

您可以使用特殊的微格式。多見於http://microformats.org/

簡單的例子:

<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a> 

的Rel-許可證是幾個微格式之一。通過將rel =「license」添加到超鏈接,頁面會指出該超鏈接的目標是當前頁面的許可證。

+0

我不必使用元標記 – station 2011-05-25 09:54:55

1

對於語義相關的文檔,您可以使用SKOS等特殊詞彙表,並將它們與本體關聯起來。或者,您可以像文檔中提到的那樣,直接在文檔中使用微格式。

對於自然語言處理,存在不同的工具,如可以提取信息的GATE。但這不是一項微不足道的任務。

也許你可以改進你想做的事情?你想定義哪些文件是相關的?或者你想要一個軟件來找出哪些文件可能是相關的?

0

您需要查看「named entity extraction」即自然語言處理以提取可能的兩個文檔通用的實體。這些通常是人,地點,事件,時間,組織。

查看OpenCalais http://www.opencalais.com/瞭解這類技術的一些實際應用。

相關問題