我有一個關於WordNet數據文件格式的問題。 wndb(5)手冊頁部分說明:幫助WordNet數據文件格式
source/target字段區分詞彙和語義指針。它是一個四字節的字段,包含兩個兩位十六進制整數。前兩位數字表示當前(源)synset中的字數,後兩位數字表示目標synset中的字數。值0000表示pointer_symbol表示當前(源)synset與synset_offset指示的目標synset之間的語義關係。
不同同義詞中兩個詞之間的詞彙關係由源詞和目標詞的數字中的非零值表示。該字段的第一個和最後兩個字節分別表示源關係和目標同義詞中的字數,它們之間的關係成立。字編號被分配到synset中的字段,從左到右,從1開始。
我知道第二段的時候源/目標號碼是非零的,但是當源/目標是「0000」仍然不清楚給我。
讓我以「貴族」一詞爲例。所述index.noun
條目是:
貴族N + 1 4 @〜#M + 1 0 09807754
和相應data.noun條目是:
09807754 18 N 03貴族0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102〜09840639 n 0000〜09872782 n 0000〜10083823 n 0000〜10175090 n 0000〜10285135 n 0000〜10472799 n 0000〜10474064 n 0000 〜10505732 n 0000〜10506642 n 0000 |貴族
第一 「PTR」 的成員爲它是:
@ 09623038Ñ0000
和data.noun
條目開頭:
09623038 18 n 01領導者0 058 @ 00007846 n 0000 ...
我不清楚這個關係是用於哪個單詞的。上限(「@」)關係是否僅針對目標synset中的所有單詞(在這種情況下,僅存在「領導者」)的原始單詞(「aristrocrat」)?
或者,對於synset中的所有單詞(「aristocrat」,「blue blood」和「patrician」),該關係是否適用於目標synset中的所有單詞?