我有文本塊從PDF文檔閱讀,使用iTextSharp的庫(方法:GetResultantText())C#StringBuilder的:堅持一個StringBuilder對象轉換爲VARCHAR列 - SQL服務器
考慮文本概述/格式化段:
* 「第一個
第二款 ...
段落ñ 。」 *
有沒有辦法使用C#StringBuilder對象,或者可能的替代方法來存儲文本,同時保留fomatting ?:包含回車和段落等,並將值存儲在SQL Server 08中的一個varchar字段中
最終,我打算將文本存儲到varchar字段中,並希望保留換行符,回車[basic fomatting metadata],否則提取的文本是一個單獨的文本塊,它在呈現時不可讀。
我認爲調用StringBulder對象上的toString()方法會刪除文本中的所有中間格式化字符,而不是終止[newlinecharacter]。
SimpleTextExtractionStrategy strategy;
//StreamWriter writer = new StreamWriter("c:\\pdfOutput.txt");
for (int i = 1; i <= reader.NumberOfPages; i++)
{
try
{
strategy = parser.ProcessContent(i, new SimpleTextExtractionStrategy());
buffer.AppendLine(strategy.GetResultantText());
//writer.WriteLine(strategy.GetResultantText());
}
catch (IndexOutOfRangeException e) { }
}
pdfText = buffer.ToString();
Console.WriteLine("* End: Text Extraction Process ...");
return pdfText = buffer.ToString();
如果我取消註釋並輸出到文本文件,則會保留該格式。 但是如果我保存生成的文本和實體定義爲:我得到的是一個單獨的文字塊:
[System.Data.Linq.Mapping.Table(Name = "ReportsText")]
public class ReportsText
{
[Column (IsDbGenerated = true, AutoSync=AutoSync.OnInsert)]
public int ID { get; set; }
[Column(IsPrimaryKey = true, AutoSync = AutoSync.OnInsert)]
public String image { get; set; }
[Column] public String announcement { get; set; }
}
所以pdfText是inteded被存儲到annouuncement領域。乾杯。
我不認爲格式化會消失... – soandos 2011-05-31 05:06:46