我在這裏的問題是,給出一個document d1 on the web and a document d2
我怎麼知道d1和d2是語義相關的。是否有一些API可以做一些自然語言處理,可能會給我一個暗示,因爲d1可能與d2連接。 我需要它嚴重和uregently.Please幫助!如何查找Web上的文檔是否與某些其他文檔在語義上相關?
1
A
回答
2
您可以使用特殊的微格式。多見於http://microformats.org/
簡單的例子:
<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a>
的Rel-許可證是幾個微格式之一。通過將rel =「license」添加到超鏈接,頁面會指出該超鏈接的目標是當前頁面的許可證。
1
對於語義相關的文檔,您可以使用SKOS等特殊詞彙表,並將它們與本體關聯起來。或者,您可以像文檔中提到的那樣,直接在文檔中使用微格式。
對於自然語言處理,存在不同的工具,如可以提取信息的GATE。但這不是一項微不足道的任務。
也許你可以改進你想做的事情?你想定義哪些文件是相關的?或者你想要一個軟件來找出哪些文件可能是相關的?
0
您需要查看「named entity extraction」即自然語言處理以提取可能的兩個文檔通用的實體。這些通常是人,地點,事件,時間,組織。
查看OpenCalais http://www.opencalais.com/瞭解這類技術的一些實際應用。
相關問題
- 1. 查找所有文檔,但是如果某些文檔具有相同的值,請獲取最新的文檔
- 2. 除官方文檔外,是否還有其他文檔?
- 3. 查找文檔頁面上的文字
- 4. ElasticSearch 5.5.0:查找相關文檔
- 5. 在1m +行的文檔上查找
- 6. 在MongoDb上查找多文檔值到一個文檔中
- 7. 從其他文檔上拷貝附件
- 8. 如何在文檔中找到一組關鍵字,其中的某些關鍵字在某個距離切斷?
- 9. DocBlock/REST Web服務的其他文檔
- 10. 如何檢查文檔是否爲有效的PDF文檔
- 11. Elasticsearch在其他文檔上查詢對象的聚合
- 12. 從其他文檔添加關聯的文檔
- 13. Google文檔:它是否存在HTML或其他Web格式的某些模型來發布電子表格?
- 14. 如何在MongoDB中的子文檔上查找查詢
- 15. 根據文檔與基礎文檔的相關性排列文檔是否有利
- 16. jQuery - 如何在文檔上找到相同的href屬性?
- 17. 查找與定義的半徑相交的Solr文檔
- 18. 如何使用scikit查找關於文檔的術語TF-IDF
- 19. 如何使VBA Excel程序在其他Excel文檔上工作?
- 20. OrientDB - 如何插入連接多個其他文檔的文檔?
- 21. 其中是Amazon S3上的C#文檔?
- 22. 查找文檔
- 23. 查找文檔
- 24. 查找文檔
- 25. 如何檢查項目是否與某些其他項目在多對多關係中相關?
- 26. 如何查找與標籤列表相匹配的文檔?
- 27. css @import是否與它鏈接的HTML文檔相關?
- 28. 如何將URL文檔從word文檔複製到其他文檔?
- 29. 如何以編程方式上傳Google文檔上的文檔?
- 30. 相關文檔中未引用的RavenDB查詢文檔
我不必使用元標記 – station 2011-05-25 09:54:55