我正在用c#編寫一個程序。 我需要知道是否有選項可以打開網站的網址並在文本中查找關鍵字。 例如,如果我的程序獲得URL http://www.google.com和關鍵字「gmail」 它將返回true。 因此,爲了得出結論,我需要知道是否有辦法去URL下載HTML文件將其轉換爲文本,所以我可以查找我的關鍵字。下載HTML文件並將其轉換爲TXT
回答
您應該可以按原樣打開HTML文件。 HTML文件是純文本,這意味着FileStream
和StreamReader
應該足以讀取該文件。
如果你真的想要的文件是.txt,您只需將文件當您下載保存爲filename.txt
,而不是filename.html
。
這聽起來像你想刪除所有的HTML標籤,然後搜索結果文本。
我的第一反應是使用正則表達式:
String result = Regex.Replace(htmlDocument, @"<[^>]*>", String.Empty);
無恥偷了這個來自: Using C# regular expressions to remove HTML tags
這表明這聽起來完全像你在找什麼HTML Agility Pack。
我期待知道,如果有一種方法來下載一個html文件,並將其轉換爲txt文件 – yoni2
在Visual Basic中工作的:
Imports System
Imports System.IO
Imports System.Net
Function MakeRequest(ByVal url As String) As String
Dim request As WebRequest = WebRequest.Create(url)
' If required by the server, set the credentials. '
request.Credentials = CredentialCache.DefaultCredentials
' Get the response. '
Dim response As HttpWebResponse = CType(request.GetResponse(), HttpWebResponse)
' Get the stream containing content returned by the server. '
Dim dataStream As Stream = response.GetResponseStream()
' Open the stream using a StreamReader for easy access. '
Dim reader As New StreamReader(dataStream)
Dim text As String = reader.ReadToEnd
Return text
End Function
編輯:對於其他人發現這個頁面將來參考,您的URL通過,而這個函數會去的網頁,閱讀所有的HTML文本,並將其作爲文本字符串返回。那麼你所要做的就是解析它(搜索文件中的文本),或者如果你願意的話,你可以使用流寫入器將它保存到文本或html文件中。
不要使用正則表達式來解析html,因爲html對於常規表達式來說相當複雜。看看林志玲討論因此,對於這個
RegEx match open tags except XHTML self-contained tags
使用,而不是已經實現了HTML解析器用於這一目的。
這裏是SO另一個討論在這裏你可以找到一個鏈接,你需要
搜索還互聯網上自己。
using (WebClient client = new WebClient())
{
client.DownloadFile("http://example.com", @"D:\filename.txt");
}
- 1. 如何將.txt文件轉換爲jar並將其讀取
- 2. 將HTML結果頁轉換爲PDF並下載CGI文件
- 3. C#從Dropbox下載文件並將其轉換爲HttpPostedFile
- 4. 從URL下載一個文件,並將其轉換爲NSString的
- 5. Android:下載.html並將其轉換爲字符串
- 6. Ruby on Rails 4.將模型轉換爲CSV並將其作爲文件下載
- 7. 我需要下載並將PDF轉換爲android上的txt
- 8. Phonegap下載html文件並將其替換(來源)
- 9. 如何下載並將.data文件轉換爲.csv文件?
- 10. 將表格轉換爲html並將其轉換爲div
- 11. 將txt文件數據轉換爲html文本
- 12. 檢測最新的Excel文件並將其轉換爲html
- 13. 多文件上傳並將其轉換爲html格式
- 14. 將.txt文件轉換爲SQLite
- 15. 將* .mis,* fin轉換爲* txt文件
- 16. 將.kml轉換爲.txt文件
- 17. 將多個.dta文件轉換爲.txt
- 18. 如何將txt文件轉換爲xml?
- 19. 在python中加載位圖文件並將其轉換爲HBITMAP
- 20. 轉換爲.txt文件
- 21. 使用C++將txt文件轉換爲html表格
- 22. 如何使用Perl將txt文件轉換爲html
- 23. 下載並將csv文件轉換爲Datatable
- 24. 按鈕下載.txt文件(PHP和HTML)
- 25. 使用curl與node.js下載圖像並將其轉換爲base64
- 26. React-Native:下載圖像並將其轉換爲Base64圖像
- 27. php下載xml頁面並將其轉換爲utf-8
- 28. 使用Axios下載圖像並將其轉換爲base64
- 29. 下載JSON數據並使用Python將其轉換爲CSV
- 30. 在JSP頁面上載PDF文件並將其轉換爲文本文件
我覺得他的問題是actualy下載不將其轉換爲文本的頁面。有這樣的功能嗎? – atoMerz
以及如何使用網址下載html? – yoni2
@ yoni2:看看這個:http://stackoverflow.com/questions/599275/how-can-i-download-html-source-in-c – asfallows