如何從剪貼板中獲得正確編碼的HTML？

有沒有人注意到，如果你從剪貼板檢索HTML，它會得到錯誤的編碼並注入奇怪的字符？如何從剪貼板中獲得正確編碼的HTML？

例如，執行這樣的命令：

string s = (string) Clipboard.GetData(DataFormats.Html)

結果的東西，如：

<FONT size=-2>Â Â <A href="/advanced_search?hl=en">Advanced 
Search</A><BR>Â Â <A href="/preferences?hl=en">Preferences</A><BR>Â Â <A 
href="/language_tools?hl=en">Language 
Tools</A></FONT>

不知道降價將如何處理這一點，但也有在產生的標記怪異字符以上。

看來，這個錯誤是與.NET框架。您認爲從剪貼板獲得正確編碼的HTML的最佳方法是什麼？

來源

2008-10-27 Winston Fassett

以下是可以修改到剪貼板以更改任何編碼問題的PowerShell腳本。

http://www.johndcook.com/blog/2008/10/17/manipulating-the-clipboard-with-powershell/

來源

2008-10-27 02:41:23

你必須解釋數據爲UTF-8。見MS Office hyperlinks change code page?。

來源

2008-10-27 05:41:57

我不知道您的原始源文檔是什麼，但請注意，Word和Outlook以不同的編碼提供了多個版本的剪貼板。一個通常是Windows-1252，另一個是UTF-8。當您預計Windows-1252（Latin-1 + Smart Quotes）時，可能默認採用UTF-8編碼版本？非ASCII字符會顯示爲多個奇數拉丁字母重音字符。大多數「智能引號」不在Latin-1集合中，並且通常是UTF-8中的三個字節。

你能指定你想要剪貼板內容的編碼嗎？

來源

2013-07-08 17:15:54

在這種情況下，它不像我的情況那麼明顯。今天，我試圖從剪貼板複製數據，但有一些unicode字符。我得到的數據好像我會在Windows-1250編碼（本地編碼在我的Windows中）中讀取UTF-8編碼文件。

看來你的情況是一樣的。如果您保存html數據（請記住在Â字符之後放置不可破壞的空間= 0xa0，而不是標準空間）在Windows-1252 （或Windows-1250;兩者都可用）。然後打開這個文件作爲一個UTF-8文件，你會看到應該有什麼。

對於我的其他項目，我做了一個修復數據與損壞的編碼功能。

在這種情況下，簡單的轉換應該足夠了：

byte[] data = Encoding.Default.GetBytes(text); 
text = Encoding.UTF8.GetString(data);

我最初的功能是多一點點複雜，其中包含測試，以確保數據不被損壞......

public static bool FixMisencodedUTF8(ref string text, Encoding encoding) 
{ 
    if (string.IsNullOrEmpty(text)) 
    return false; 
    byte[] data = encoding.GetBytes(text); 
    // there should not be any character outside source encoding 
    string newStr = encoding.GetString(data); 
    if (!string.Equals(text, newStr)) // if there is any character "outside" 
    return false; // leave, the input is in a different encoding 
    if (IsValidUtf8(data) == 0) // test data to be valid UTF-8 byte sequence 
    return false; // if not, can not convert to UTF-8 
    text = Encoding.UTF8.GetString(data); 
    return true; 
}

我知道這不是最好的（或正確的解決方案），但我沒有找到任何其他方式如何解決輸入...

編輯：（2017年7月20日）

這似乎是微軟已經發現了這個錯誤，現在它工作正常。我不確定這個問題是否出現在某些框架中，但是我確實知道，當我編寫答案時，現在應用程序使用了不同的框架。 （現在是4.5;上一版本爲2.0）

（現在我所有的代碼失敗在解析數據，還有一個問題，以確定應用程序與修復已經應用。查閱全文，並沒有固定正確的行爲。）

來源

2013-09-28 15:07:51 Julo

嘗試此

System.Windows.Forms.Clipboard.GetText（System.Windows.Forms的TextDataFormat .HTML）;

來源

2015-04-15 22:58:22

DataFormats.Htmlspecification聲明它使用UTF-8編碼。但是.NET 4 Framework中存在一個錯誤，並且它實際上讀取爲UTF-8，如Windows-1252。

這裏充分說明 Debugging Chart Mapping Windows-1252 Characters to UTF-8 Bytes to Latin-1 Characters

溶液：創建一個翻譯詞典，搜索和替換。

來源

2016-06-28 05:47:15 Markus

如何從剪貼板中獲得正確編碼的HTML？

回答

相關問題