2014-01-06 91 views
0

事實上,我們有兩種類型的PDF文件:軟PDF文檔

  • Soft documents(轉換從詞到PDF或乳膠爲PDF)。
  • Hard documents(從掃描圖像轉換爲PDF)。

順便說一句,我只關心軟文件。

事實上,我試圖隱藏現有PDF文檔中的信息(通過使用特定的隱寫方法......),並且我有興趣通過稍微修改字符的位置來插入嵌入的消息。所以我知道在一行中,所有字符都具有相同的y軸但不同的x軸。所以我可以通過稍微修改每個字符的x軸來插入一些位,但是如果通過修改位於同一行中的字符的y軸來插入位,所以這將容易被檢測到(因爲它們具有相同的y軸)。這就是爲什麼我有興趣通過修改屬於同一行的字符的x軸來插入一些位,並且通過修改屬於不同行的字符的y軸來對一些位進行修改(每個字符在特定線,但我不知道線之間的差距是否保持不變)。在這種情況下,我認爲我的方法將更難以察覺。

但在此之前實現這一目標,我有興趣得到以下問題的答案:

1)如果我們從Microsoft word to PDF通過轉換生成的PDF:是否每行之間的差距仍然是相同?段落之間的差距是不變的(保持不變)?

2)此外,如果我們有一個從Latex to PDF轉換生成的PDF:各行之間的差距是否保持不變?段落之間的差距是不變的(保持不變)?請給我你需要的意見和簡要解釋。

3)當文本正確時,2對字母之間的空格是否保持相同?換句話說,爲了更精確,假設我們有一個文本爲pdf,其中的文字是「happy new y ea r and merry christmas,world is b ea utiful!」。 中的「ea」之間的間隔在「美麗」中保持不變?因此,如果我們有多個包含「ea」的單詞,那麼e和a之間的空格總是在所有單詞的所有單詞中相同? (假設我們不會將所有文本的警察更改爲PDF)。

+1

http://tex.stackexchange.com/ – user2485710

回答

2

您可能需要解釋一下你想要做什麼;這可能會更容易給出好建議。從本質上講,理解應用程序(如Word)(我不願意對Latex發表評論 - 我對此不太瞭解)和PDF之間的根本區別很重要。

單詞以單詞,句子和段落爲生。結構化的內容非常重要,頁面上的佈局如何 - 幾乎是 - 一個想法。事實上,雖然最近的Word版本在這方面要好得多,但舊版本的Word可以通過簡單地選擇不同的打印機來生成完全不同的佈局(包括分頁)。相信我,我一度非常害怕被咬傷(愚蠢的我)。

PDF生活的頁面表示和結構 - 從字面上 - 一個想後。當PDF文件繪製段落時,它繪製單個字符或字符組。有時在閱讀順序中,但可能以完全不同的順序(取決於許多因素)。沒有線條高度歸因於角色或段落風格的概念;生成PDF的應用程序只需將文本指針向下移動一定數量的點並開始繪製下一個字符。

因此......也許部分回答你的問題。

如果您使用相同的操作系統使用相同的字體(不是具有相同名稱的字體,相同的字體)的相同版本的Word生成的Word文檔,通常可以假定基本的文本佈局規則將是相同的。因此,如果您在兩個Word版本中重現完全相同的文本,則會得到完全相同的結果。

但是......

有Word中太多的影響參數是絕對肯定的。例如,線條高度可能受到線條上實際單詞的影響。在一行上有另一種字體的粗體字或單詞(符號可以計數!)會影響這些特定行之間的間距量。因此,雖然線路之間可能總體上具有相同的距離,但各條線路可能不同。

此外,例如,字間距可以非常容易地受到字符樣式和文本對齊的影響,字間距也可以。

至於你的問題3),除了字符間距可能會改變你所看到的事實之外,假定所有的東西都是相等的,例如組合「ea」總是有相同的距離。有兩種字體。 1)那些只定義字符寬度,這意味着「ea」的每個組合在邏輯上總是具有相同的寬度。 2)那些定義特定字符對的字符寬度和特定字距。但是因爲這樣的字距對於特定的字符對來說,「ea」之間的距離仍然是相同的。

我希望這是有道理的,就像我說的,也許你需要分享更多關於你所要完成這樣一個更好的答案可以給出什麼...

+1

2(LaTeX):TeX及其衍生產品可能會使用垂直對齊方式在頁面上放置更多或更少的線條,甚至僅出於美學原因。通常首先調整段間間距,但也可能延伸到段內前導。 TeX還擴大了在線公式的領先優勢。 – usr2564301

+1

這就是我所害怕的,TeX可能更傾向於像FrameMaker和InDesign這樣的使用各種複雜佈局方法(如視覺對齊)的美學方面產生非常令人滿意的結果,但在生成的文檔中產生更多的隨機間距。 .. –

+1

是的。但是,InDesign恰好可以創建*非常*清晰的PDF文件 - 對「PDF」的創建者而言,這是一種期望。單詞通常很雜亂。使用LaTeX的時候,你會受到'dvi2ps'(以及最近'dvi2pdf')的使用版本的支配,這往往會產生更糟糕/奇怪/意外的結構。嘗試*從TeX PDF中複製*純文本... – usr2564301

1

@大衛的答案,並@ Jongware的意見它已經回答了你明確的問題1),2)和3)。實質上,如果您有相同的軟件設置(並且至少在MS Word中可能包含通常不考慮的系統資源),則源文檔(Word或LaTeX)可能會產生與字形位置相同的輸出。但是,小補丁可能會作爲製造商提供的安全更新提供,可能會導致這方面的差異,通常很小,但有時會使行或甚至頁面在不同位置中斷。

因此,現有的PDF文檔中關於您的目標

隱瞞信息(通過使用特定的隱寫術方法...),[...],以通過稍微修改的位置插入嵌入消息的人物。

除非你想有多個相同的軟件設置爲您的安全概念的一部分,我會建議你做試圖隱藏的信息作爲你的操縱PDF和不操作的PDF但,而不是區別以較低有效位數(例如,通過使這些數字奇數或偶數隱藏位,無論是在以給定精度轉換之前還是之後)在您的操縱文檔中與「原稿」進行比較是不必要的。

欲瞭解更多明確的主張,請提供更多信息,例如:

  • 誰應該隱藏信息:他們的知識和足智多少?
  • 如何提取信息;通過視覺比較?通過一些可以在任何計算機上運行的小程序?通過一個非常明確的軟件設置?
  • 什麼後處理步驟應該是可能的而不破壞隱藏的信息;應該例如通過某些軟件包簽名是可能的?這些後處理程序有時會引入較小的更改,例如,通過將數字解析爲float變量並稍後將這些變量寫回floats
+0

親愛的Michael,真的非常感謝你的回答:)我非常感謝你:)非常感謝你。 – Christina