2012-12-02 50 views
4

diff format或多或少是表示文本之間差異的事實標準,並且被程序員廣泛用於分發源代碼更改。大多數版本控制系統可以輸出差異,而差異則用於討論對文本的建議更改(例如源代碼),因爲它們在說明更改時非常強大。用於文本註釋的數據格式

但是,我經常想簡單地對文本進行評論而不改變它,並且希望能夠以與差異變化一樣強大的方式將註釋表示爲文本的數據格式。一個典型的用例就是代碼審查,我想對代碼發表評論,但是還沒有提出任何修改。另一個用例是用我自己的想法和提醒來註釋一篇文章。在Word中,我可以通過標記文本並在文本旁邊創建註釋氣球來對文本進行註釋。但Word在其他方面很麻煩 - 我希望在單獨的文件中只有註釋,並保留原文原樣。

存在哪些數據格式能夠以與差異一樣精確的方式表示對文本的註釋?

我不是在尋找像「XML」這樣的一般答案。我正在尋找明確表示註釋到文本的格式。 (也許沒有這樣的格式存在,除了Word等特定程序的應用程序特定格式。)

回答

2

優秀的問題。

大多數人會在討論中拋出XML或像HTML這樣的子集。 標記語言使用存儲在原始文本中的(數據)屬性。但那不是你要找的。我不包括XML/HTML和RDF &微格式。

一般

你需要保持原來的文本,複製它,然後通過自定義標記語言添加註釋。這允許原始文本與註釋文本產生文本差異。 重要的是獨立存儲的原始文本和文本的註釋修訂。

這允許多個進行比較:

  • 「原文」 和 「註釋文本修訂1..n的」
  • 「註釋文本轉n」 和「註釋文本轉N的
  • 的diff + 1之間的diff 」。

這是相當強大的。

存在哪些數據格式?

一個文本挖掘格式

在支座表示,文檔的文本保持 從註解,這是通過字符偏移連接的 文本特定跨距分離。註釋通過文件命名約定與其文本相關聯,其基本名稱(文件 名稱無後綴)是相同的:例如,文件PMID-1000.a1 包含文件PMID-1000.txt的註釋。

正如你可以看到,這是一個「基於文件名註解協會」。 很多學術研究和改進的空間,)

+0

優秀的答案!這些格式只需要一些概括。嗯......誘惑......;) –