2012-10-12 123 views
0

任何人都知道如何閱讀電子數據交換文件並且能夠搜索和定位標籤? 即時通訊使用VB.Net,我沒有任何想法如何閱讀EPUB。電子標籤搜索

或者只是幫我解壓縮或解壓縮某個文件

這些都是我的代碼

Dim ZipToUnpack As String = txtPath.Text 
Dim TargetDir As String = txtTXT.Text 
Console.WriteLine("Extracting file {0} to {1}", ZipToUnpack, TargetDir) 
Using zip1 As ZipFile = ZipFile.Read(ZipToUnpack) 
'AddHandler zip1.ExtractProgress, AddressOf MyExtractProgress 
Dim a As ZipEntry 
For Each a In zip1 
a.Extract(TargetDir, ExtractExistingFileAction.OverwriteSilently) 
Next 
MsgBox("Done") 
getFiles() 
End Using 


For j As Integer = 0 To ListView1.Items.Count - 1 
Dim k As StreamReader = New StreamReader(New FileStream(Path.Combine(ListView1.Items(j).Tag, ListView1.Items(j).Text), FileMode.Open, FileAccess.Read, FileShare.Read)) 
k.ReadLine() 

你能幫我什麼,下一步如何讀取所有的HTML和計數的img標籤

你要採取
+0

http://en.wikipedia.org/wiki/EPUB#Version_3.0_.28current_version.29 – Brad

+0

仍然不有任何想法如何讀給我的計劃 – kelvz

回答

1

步驟,在一個語言無關的方式:

  1. UNZ ip .epub文件

  2. 讀取META-INF/container.xml文件以查找rootfile標記。這給你聲明包的內容的.opf文件的位置。 (我將把它作爲content.opf,但它可能有另一個名稱。)

  3. 讀&解析content.opf(它的XML太),並在<manifest>部分每個文件和路徑列表。這是包中每個文件的列表。

  4. 對於該清單列表中的每個.xhtml文件(即具有媒體類型「application/xhtml + xml」的文件),解析HTML,查找<img>標籤。