我想從web page中提取正文段落並將它們存儲到字符串中。我是以最好的方式解析html源代碼嗎?
首先,我獲得使用
NSString *sourceCode = [NSString stringWithContentsOfURL:[NSURL URLWithString:currentLink] encoding:NSUTF8StringEncoding error:&error];
主體段中的整個源代碼<!-- (START) Pagination Content Wrapper -->
後開始,並結束之前<!-- (END) Pagination Content Wrapper -->
所以打算分割字符串像這樣
NSString *startingPt = @"<!-- (START) Pagination Content Wrapper -->";
NSString *endingPt = @"<!-- (END) Pagination Content Wrapper -->";
NSString *sub = [sourceCode substringFromIndex:NSMaxRange([str rangeOfString:startingPt])];
sub = [sourceCode substringToIndex:[s rangeOfString:endingPt].location;
然後,我會使用stringByReplacingOccurrencesOfString:withString:
來替換剩餘的html標記@""
有沒有更好的方法來實現我的目標?
正如你所提到的,存在隨機數量的空白。有沒有辦法擺脫他們? – Mahir
使用[myString stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]]; – chapka
我已經添加了。它只是在文本開始之前和之後擺脫空格,而不是段落之間的空格 – Mahir