IOS开发分享----爬虫技术

这段时间趁闲鱼时间,看到一段关于JAVA爬虫某知名网站的代码;试了试ios利用webview 及 AFNETWORKING网络请求 ;仿java思路 完成了一个成功的dome;

闲话不多说:

    大致流程:

         1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;

         2、利用webview获取cookies (https请求需要自己配置info.list)

         3、参考其请求模式,模拟请求 获取HTML响应体;

         4、解析请求体、展示给用户;     //获取有效信息 

         5、 保存数据提交自己的服务器;


1、利用火狐、Google chrome浏览器 查看控制台  抓取 其网络请求(get、post)获取其请求头、请求体;


注:以百度为例


2、利用webview获取cookies


注:web设为(0,0,0,0)给自己的UI留位置


3、参考其请求模式,模拟请求 获取HTML响应体

这个是关键,需要模拟请求

注:这个是HTTPS get请求 

遇到post的其实可以用ios原生post请求 获取 根据浏览器获取的请求方式进行:

NSURLSession*session = [NSURLSession sharedSession];

// 设置请求路径

NSURL*URL=[NSURL URLWithString:@"https://www.baidu.com"];//不需要传递参数

// 创建请求对象

NSMutableURLRequest*request=[NSMutableURLRequest requestWithURL:URL];//默认为get请求

request.timeoutInterval=5.0;//设置请求超时为5秒

request.HTTPMethod=@"POST";//设置请求方法

// 设置请求体

NSString*param=[NSString stringWithFormat:@"reportformat=21&tradeCode=%@",uesr_name];

//把拼接后的字符串转换为data,设置请求体

[requestsetValue:@"max-age=0"forHTTPHeaderField:@"Cache-Control"];

[requestsetValue:cookies forHTTPHeaderField:@"Cookie"];

[requestsetValue:@"https://www.baidu.com"forHTTPHeaderField:@"Origin"];

request.HTTPBody=[paramdataUsingEncoding:NSUTF8StringEncoding];

// 发送请求

NSURLSessionDataTask*dataTask = [session dataTaskWithRequest:request completionHandler:^(NSData*_Nullabledata,NSURLResponse*_Nullableresponse,NSError*_Nullableerror) {

// 解析数据data流过来的html编码转换成NSString

NSStringEncodingenc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);//可以在流量器上获取解码的类型

NSString* str =[[NSStringalloc]initWithData:dataencoding:enc];

// 反馈给服务器

NSLog(@"=====>>>>>%@",str);

//[data writeToFile:@"/Users/lufeng1/Desktop/c.html" atomically:YES];//可以测试看看获取的数据正确与否

}];

// 执行任务

[dataTask resume];


4、解析请求体、展示给用户

解析这里的responseObject即可 给的例子是用GB翻译的 可以用保存的方式 存储为HTML查看 

给个福利吧,查看HTML有些时候获取不全body 可以试试这句话-----

//NSString * str= [webView stringByEvaluatingJavaScriptFromString:@"document.body.innerHTML"];

5、 保存数据提交自己的服务器

自己post回去有用信息即可


文章写的比较粗糙吧,过程之中可能会遇到HTTPS请求报错 那就需要配置相对应的HTTPS.cer文件放入工程:

~openssl s_client -connect www.baidu.com:443 /dev/null | openssl x509 -outform DER > https.cer

可把www.baidu.com替换直接获取证书。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容

  • iOS开发系列--网络开发 概览 大部分应用程序都或多或少会牵扯到网络开发,例如说新浪微博、微信等,这些应用本身可...
    lichengjin阅读 3,637评论 2 7
  • 前言 关于UIWebView的介绍,相信看过上文的小伙伴们,已经大概清楚了吧,如果有问题,欢迎提问。 本文是本系列...
    CoderLF阅读 8,943评论 2 12
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,598评论 18 139
  • 218.241.181.202 wxhl60 123456 192.168.10.253 wxhl66 wxhl6...
    CYC666阅读 1,361评论 0 6
  • iOS App开发中的Cookie 一、何为Cookie Cookie是网站为了便是终端身份,保存在终端本地的用户...
    o本是后山人o偶作前堂客o阅读 3,664评论 1 8