本系列参考《AVFoundation开发秘籍》 ,仅供学习使用.
1. AVFoundation的适用范围
AVFoundation是苹果在iOS和OS X系统中用于处理基于时间的媒体数据的Objective-C框架. 供使用者来开发媒体类型的应用程序.
虽然现在你可以在iOS和 OS X系统中通过WebView或HTML标签直接来播放音视频内容,但是如果想要加入额外媒体相关功能如:录制,音视频流控制,添加额外动画和图片效果等.则需要专门的音视频框架进行控制.
上图是iOS系统下媒体应用的结构层. AVKit框架用于简化媒体应用的创建过程,如果你只需要看电影,那么使用这个就可以了, UKit可以支持简单的录制功能 . 而更多功能需要低层级框架支持.下面简单介绍下AVFoundation内最主要的支撑框架和其提供的功能.
- CoreAudio : 处理所有音频事件.是由多个框架整合在一起的总称,为音频和MIDI内容的录制,播放和处理提供相应接口.甚至可以针对音频信号进行完全控制,并通过Audio Units来构建一些复杂的音频处理.有兴趣的可以单独了解一下这个框架.
- CoreMedia: 是AVFoundation所用到低层级媒体管道的一部分.提供音频样本和视频帧处理所需的低层级数据类型和接口.
- CoreAnimation: 动画相关框架, 封装了支持OpenGL和OpenGL ES功能的ObjC各种类. AVFoundation可以利用CoreAnimation让开发者能够在视频的编辑和播放过程中添加动画和图片效果.
2. AVFoundation的文档
AVFoundation 提供了大量的类和相关功能,可以通过苹果官方指南简单了解下:
转: AVFoundation 指南翻译
3. 数字媒体简单了解
在深入了解学习AVFoundation前,你最好还要了解下相关现代数字媒体的采样和处理知识.
-
数字媒体采样: 其实就是对媒体内容进行数字化,主要有两种方式:①时间采样,用来捕捉一个信号在一个周期内的变化.如录音时的音高和声调变化. ②空间采样: 一般用在可视化内容的数字化过程中,对一幅图片在一定分辨率下捕捉其亮度和色度.
-
音频采样:用麦克风把声波机械能量转换成电信号, 再通过一个编码方法(LPCM)进行数字化. 此过程中 采样或测量一个音频信号过程的周期率 被称为采样率, 采样率越高信号越完整清晰.
- 视频采样: 视频其实就由一系列"帧"图片组成,时间轴线上每一帧都表示一个场景. 要显示出连续的动画,其实就是在短时间间隔内提供特定数量的帧. 1s内所连续展现的帧数就称为帧率了. 显而易见的, 帧率越高,视频显示越流畅. 现在常见帧率24FPS , 30FPS.
-
音频采样:用麦克风把声波机械能量转换成电信号, 再通过一个编码方法(LPCM)进行数字化. 此过程中 采样或测量一个音频信号过程的周期率 被称为采样率, 采样率越高信号越完整清晰.
视频内容的存储: 我们先确定每个独立帧图片的大小,以1280x720分辨率为例,一帧像素数量约等于一百万个像素点,通常称1M . 如果对每个像素点使用8位的RGB三原色存储,一个像素就需要24位存储空间. 一帧就需要2.6MB的存储空间. 而一个帧率30FBS的一秒视频就需要79MB存储. 显然,这不合实际. 所以需要专门对其的存储和传输格式做压缩处理 .
-
数字媒体压缩: 对数字媒体进行压缩可以大幅缩小文件尺寸,但是也会在资源的质量上有可见的衰减.
- 色彩二次抽样: 实际上视频数据一般不以RGB而是以YUV颜色模式存在的. YUV使用色彩通道替换了RBG像素的亮度通道. 这样可以大幅减少存储在每个像素中的颜色信息,而不至于让图片质量严重受损.这个过程就叫色彩二次抽样.
如果你注意的话,很多摄像设备和软件都提到了4:4:4,4:2:0等字眼,这些值就是这些设备所使用二次抽样的参数,根据这些值将亮度比例转换色度值.一般专业相机使用4:4:4全彩信息比例.
-
视频编解码: 大部分音视频都是使用编解码器来压缩的,它使用高级压缩算法对需要保存或发送的的音视频数据进行压缩和编码,之后将压缩文件解码成适合播放的资源文件. 对于视频编解码而言.AVFoundation提供有限的编解码器集合, 目前归结为H264和AppleProRes.
-
H264:这个编解码格式标准广泛用于视频摄像头捕捉到的资源以及网页上的流媒体视频. 是MPEG所定义的MPEG-4的一部分,遵循更早期的MPEG-1和MPEG-2标准,但是在比特率和图片质量上有很大进步.
与其他形式的MPEG压缩一样,H264通过空间和时间两个维度进行压缩,分别称为帧内压缩和帧间压缩.帧内压缩通过消除包含在每个独立帧内的色彩及结构中的冗余信息来进行压缩,在不降低图片质量情况下尽可能的缩小尺寸,类似JPEG压缩原理,这样生成的帧称为I-frames(即关键帧).
而帧间压缩中,很多帧被组合到一起作为一组图片(简称GOP),对于GOP所存在的时间纬度上的冗余可以被消除. 例如: 行走中的人场景, 一组图片的背景通常是固定的, 而这固定的背景这就是一个时间上的冗余,可以通过压缩进行消除.
两种压缩方式结合,生成如下图的一组帧,I 就是关键帧I-frames包含创建图片所需要的完整数据, B是 双向帧B-frames,根据前后帧信息进行编码填充,几乎不需要存储空间. P是预测帧P-frames,基于最近的I和P帧信息编码获得.
- Apple ProRes : 属于一个中间层编解码器, 主要为需要专业编辑的流服务. Apple ProRes 独立于帧,只生成I-frames. 相对的,Apple ProRes 只在OS X 上可用.
-
H264:这个编解码格式标准广泛用于视频摄像头捕捉到的资源以及网页上的流媒体视频. 是MPEG所定义的MPEG-4的一部分,遵循更早期的MPEG-1和MPEG-2标准,但是在比特率和图片质量上有很大进步.
-
音频编解码: 只要是CoreAudio控件支持的音频编解码,AVFoundation都支持.
- AAC:高级音频编码, 是H264标准对应的音频处理方式, 目前音视频资源中最主流的编码方式, 比MP3格式有显著提升,可以在低比特率下提供更高的质量的音频,是在web上发布和传播最为合适的编码方式.(Core Audio支持MP3格式解码,但不支持对其编码).
-
容器格式: 不同类型文件通常有不同的扩展名后缀,但其实这些后缀名不是文件格式,而是文件的容器格式.当使用AVFoundation编写代码时,会遇到两类主要容器格式: Quick Time和MPEG-4;
- QuickTime : 是苹果公司在QuickTime架构中定义的常用格式,具体可查询苹果官方文档.
- MPEG-4:跟上面的格式非常类似, 就是常见到的MP4格式.
MAC OS X中有一个NSSpeechSynthesizer类.使用这个类可以很方便的在Cocoa应用中添加"文本转语音"功能.iOS系统中可使用AVSpeedSynthesizer类实现相似功能,来播放一段文本内容.