反色实现过程
一、 实现过程
1、 获取硬件设备实时返回的图片
- 通过获取的图片转换成视频显示。
- 视频帧率硬件返回是25帧 硬件的分辩率为 192 * 256 默认的。通过返回拿到每一帧YUV图片数据 然后转换成为RGBA 格式的图片。
重点,需要理解YUV和RGBA的区别,才能正确转换。
(1)yuv是一种图片储存格式,跟RGB格式类似。yuv中,y表示亮度,单独只有y数据就可以形成一张图片,只不过这张图片是灰色的。u和v表示色差(u和v也被称为:Cb-蓝色差,Cr-红色差),
- 为什么要yuv?
有一定历史原因,最早的电视信号,为了兼容黑白电视,采用的就是yuv格式。
一张yuv的图像,去掉uv,只保留y,这张图片就是黑白的。
而且yuv可以通过抛弃色差来进行带宽优化。
比如yuv420格式图像相比RGB来说,要节省一半的字节大小,抛弃相邻的色差对于人眼来说,差别不大。
一张yuv格式的图像,占用字节数为 (width * height + (width * height) / 4 + (width * height) /4) = (width * height) * 3 / 2
一张RGB格式的图像,占用字节数为(width * height) * 3
有兴趣 可以了解一下 YU V存储方式和格式、采样方式、数据量计算、YUV裁剪
- RGB 三个字⺟分别代表了 红(Red)、绿(Green)、蓝(Blue),这三种颜⾊称为 三原⾊,将它们以不同的⽐例相加,可以产⽣多种多样的颜⾊。
⼀张1280 * 720 ⼤⼩的图⽚,就代表着它有1280 * 720 个像素点。其中每⼀个像素点的颜⾊显示都采⽤RGB 编码⽅法,将RGB 分别取不同的值,就会展示不同的颜⾊。
RGB 转YUV
RGB 到YUV 的转换,就是将图像所有像素点的R、G、B 分量转换到Y、U、V 分量。
Y = 0.299 * R + 0.587 * G + 0.114 * B
U = -0.147 * R - 0.289 * G + 0.436 * B
V = 0.615 * R - 0.515 * G - 0.100 * B
R = Y + 1.14 * V
G = Y - 0.39 * U - 0.58 * V
B = Y + 2.03 * U
1、常规转换标准:
2、BT.601 标准:(SD TV)
3、BT.709 标准:(HD TV)
YUV转RGB
转换有几个标准
1、常规转换标准:
2、BT.601 标准:(SD TV)
3、BT.709 标准:(HD TV)
2、通过转换成RGBA后 的同时 根据条件 改变指定的像素色值。得到RGBA相应的图片数据,在渲染显示出来。
实时录制技术处理
- 说一下过程
1、拿到每一帧图片数据后,需要转换成视频流数据
- (CVPixelBufferRef)pixelBufferFromCGImage:(CGImageRef)image size:(CGSize)size {
NSDictionary *options = [NSDictionary dictionaryWithObjectsAndKeys:
[NSNumber numberWithBool:YES],kCVPixelBufferCGImageCompatibilityKey,
[NSNumber numberWithBool:YES],kCVPixelBufferCGBitmapContextCompatibilityKey,nil];
CVPixelBufferRef pxbuffer = NULL;
CVReturn status = CVPixelBufferCreate(kCFAllocatorDefault,size.width,size.height,kCVPixelFormatType_32ARGB,(__bridge CFDictionaryRef) options,&pxbuffer);
NSParameterAssert(status == kCVReturnSuccess && pxbuffer != NULL);
CVPixelBufferLockBaseAddress(pxbuffer,0);
void *pxdata = CVPixelBufferGetBaseAddress(pxbuffer);
NSParameterAssert(pxdata !=NULL);
CGColorSpaceRef rgbColorSpace=CGColorSpaceCreateDeviceRGB();
// 当你调用这个函数的时候,Quartz创建一个位图绘制环境,也就是位图上下文。当你向上下文中绘制信息时,Quartz把你要绘制的信息作为位图数据绘制到指定的内存块。一个新的位图上下文的像素格式由三个参数决定:每个组件的位数,颜色空间,alpha选项
CGContextRef context = CGBitmapContextCreate(pxdata,size.width,size.height,8,4*size.width,rgbColorSpace,kCGImageAlphaPremultipliedFirst);
NSParameterAssert(context);
CGContextDrawImage(context,CGRectMake(0,0,CGImageGetWidth(image),CGImageGetHeight(image)), image);
// 释放色彩空间
CGColorSpaceRelease(rgbColorSpace);
// 释放context
CGContextRelease(context);
// 解锁pixel buffer
CVPixelBufferUnlockBaseAddress(pxbuffer,0);
return pxbuffer;
}
2、首先创建好一个视频文件,设置好视频的 分辩率,文件格式、帧率、文件大小
重点:
//mp4的格式设置 编码格式 宽度 高度
NSDictionary *videoSettings = [NSDictionary dictionaryWithObjectsAndKeys:AVVideoCodecTypeH264, AVVideoCodecKey,
[NSNumber numberWithInt:size.width], AVVideoWidthKey,
[NSNumber numberWithInt:size.height], AVVideoHeightKey, nil];
AVAssetWriterInput *writerInput = [AVAssetWriterInput assetWriterInputWithMediaType:AVMediaTypeVideo outputSettings:videoSettings];
NSDictionary *sourcePixelBufferAttributesDictionary = [NSDictionary dictionaryWithObjectsAndKeys:[NSNumber numberWithInt:kCVPixelFormatType_32ARGB],kCVPixelBufferPixelFormatTypeKey,nil];
// AVAssetWriterInputPixelBufferAdaptor提供CVPixelBufferPool实例,
// 可以使用分配像素缓冲区写入输出文件。使用提供的像素为缓冲池分配通常
// 是更有效的比添加像素缓冲区分配使用一个单独的池
AVAssetWriterInputPixelBufferAdaptor *adaptor = [AVAssetWriterInputPixelBufferAdaptor assetWriterInputPixelBufferAdaptorWithAssetWriterInput:writerInput sourcePixelBufferAttributes:sourcePixelBufferAttributesDictionary];
NSParameterAssert(writerInput);
NSParameterAssert([videoWriter canAddInput:writerInput]);
if([videoWriter canAddInput:writerInput]){
NSLog(@"11111");
}else{
NSLog(@"22222");
}
[videoWriter addInput:writerInput];
[videoWriter startWriting];
[videoWriter startSessionAtSourceTime:kCMTimeZero];
2、就是一帧一帧 往视频文件中添加帧数据了
dispatch_queue_t dispatchQueue = dispatch_queue_create("mediaInputQueue", NULL);
int __block frame = 0;
__weak typeof(self)weakSelf = self;
//开始写视频帧
[writerInput requestMediaDataWhenReadyOnQueue:dispatchQueue usingBlock:^{
while ([writerInput isReadyForMoreMediaData]) {
if (_end) { //结束标记
[writerInput markAsFinished];
if (videoWriter.status == AVAssetWriterStatusWriting) {
NSCondition *cond = [[NSCondition alloc]init];
[videoWriter finishWritingWithCompletionHandler:^{
[cond lock];
[cond signal];
[cond unlock];
}];
[cond wait];
[cond unlock];
if (weakSelf.videoUrl) {
weakSelf.videoUrl(weakSelf.theVideoPath);
}//保存视频方法
}
break;
}
dispatch_semaphore_wait(_seam, DISPATCH_TIME_FOREVER);
if (_imageBuffer) {
//写入视频帧数据
if (![adaptor appendPixelBuffer:_imageBuffer withPresentationTime:CMTimeMake(frame, 25)]) {
NSLog(@"success视频数据写入失败");
}else{
NSLog(@"success视频数据写入成功");
frame++;
}
NSLog(@"--------->写入数据");
//释放buffer
CVPixelBufferRelease(_imageBuffer);
CVPixelBufferRelease(_imgBuffer);
_imgBuffer = NULL;
_imageBuffer = NULL;
}
}
}];
写放帧数据 必须保证一帧一帧 写入视频文件中去,所以我这里使用了加锁 和信号量来进行控制
最重要的是 分辩率 和 码率 的设置。必须要设置合适大小 不然对视频效果有很大影响
分辨率是以横向和纵向的像素数量来衡量的,表示平面图像的精细程度。视频精细程度并不只取决于视频分辨率,还取决于屏幕分辨率。
码率是数据传输时单位时间传送的数据位数,单位千位每秒,通俗理解为取样率,单位时间内取样率越大,精度就越高,处理出来的文件就越接近原始 ,一般计算:码率(kbps)= 文件大小(kb)/ 时长(s)
下菜样:当 1080P 的视频在 720P 屏幕上播放时,需要将图像缩小,缩小操作也叫下采样。
“下采样”的定义为:对于一个样值序列,间隔几个样值取样一次,得到新序列。
对于一幅分辨率为 MxN 的图像,对其进行 s 倍下采样,即得到 (M/s)x(N/s) 分辨率的图像(s 应为 M、N 的公约数),就是把原始图像 sxs 窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。
最佳体验为屏幕与视频分辨率相同且全屏播放,视频分辨率过高的话屏幕没有能力去呈现,视频分辨率过低的话无法发挥屏幕的能力。
上采样:当 720P 的视频在 1080P 屏幕上播放时,需要将图像放大,放大操作也叫上采样。
“上采样”几乎都是采用内插值方法,即在原有图像的像素点之间采用合适的插值算法插入新的元素,所以图像放大也称为图像插值。
常见插值算法技术原理:
1)邻插值算法:将四个像素(放大一倍)用原图一个像素的颜色填充,较简单易实现,早期的时候应用比较普遍,但会产生明显的锯齿边缘和马赛克现象;
2)双线性插值法:是对邻插值法的一种改进,先对两水平方向进行一阶线性插值,再在垂直方向上进行一阶线性插值。能有效地弥补邻插值算法的不足,但还存在锯齿现象并会导致一些不期望的细节柔化;
3)双三次插值法:是对双线性插值法的改进,它不仅考虑到周围四个直接相邻像素点灰度值的影响,还考虑到它们灰度值变化率的影响,使插值生成的像素灰度值延续原图像灰度变化的连续性,从而使放大图像浓淡变化自然平滑
视频编码
通过特定的压缩技术,将某个视频格式的文件转换成另一种视频格式
如:H264 :它是一种面向块,基于运动补偿的视频编码标准
1、可以在低码率情况下提供高质量的视频图像,相比 H.263 可节省 50% 的码率
2、H.264 可以根据不同的环境使用不同的传输和播放速率,并且提供了丰富的错误处理工具,可以很好的控制或消除丢包和误码。
3、H.264 性能的改进是以增加复杂性为代价而获得的,H.264 编码的计算复杂度大约相当于 H.263 的 3 倍,解码复杂度大约相当于 H.263 的 2 倍。
H.264 协议中定义了三种帧,分别为 I 帧、P 帧以及 B 帧:
(1)I 帧:I帧即帧内编码帧、关键帧,可以理解为一帧画面的完整保留,解码时只需要本帧数据就可以完成,不需要参考其他画面,数据量比较大;
(2)P 帧:P帧即前向预测编码帧,记录当前帧跟上一关键帧(或P帧)的差别,解码时依赖之前缓存的画面,叠加上本帧定义的差别,才能生成最终画面,数据量较 I 帧小很多;
(3)B 帧:B帧即双向预测编码帧,记录当前帧跟前后帧的差别,解码时依赖前面的I帧(或P帧)和后面的P帧,数据量比I帧和P帧小很多。
数据压缩比大约为:I帧:P帧:B帧 = 7:20:50,可见 P 帧和 B 帧极大的节省了数据量,节省出来的空间可以用来多保存一些 I 帧,以实现在相同码率下,提供更好的画质。
音视频直播 主要就是以下几个步骤
音频
音频处理我们首要需要知道的参数:
1、音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。
2、响度:声音的强弱
3、采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。
4、采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。
5、声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道
6、音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。
音频常见的几个问题处理
1、噪声抑制:手机等设备采集的原始声音往往包含了背景噪声,影响听众的主观体验,降低音频压缩效率,可以适当解决这样的问题。
2、回声消除:在视频或者音频通话过程中,本地的声音传输到对端播放之后,声音会被对端的麦克风采集,混合着对端人声一起传输到本地播放,这样本地播放的声音包含了本地原来采集的声音,造成主观感觉听到了自己的回声。
3、自动增益控制:手机等设备采集的音频数据往往有时候响度偏高,有时候响度偏低,造成声音忽大忽小,影响听众的主观感受。自动增益控制算法根据预先配置的参数对输入声音进行正向/负向调节,使得输出的声音适宜人耳的主观感受。
4:静音检测:静音检测的基本原理:计算音频的功率谱密度,如果功率谱密度小于阈值则认为是静音,否则认为是声音。静音检测广泛应用于音频编码、AGC、AECM等。
5:舒适噪声产生:舒适噪声产生的基本原理:根据噪声的功率谱密度,人为构造噪声。广泛适用于音频编解码器。在编码端计算静音时的白噪声功率谱密度,将静音时段和功率谱密度信息编码。在解码端,根据时间信息和功率谱密度信息,重建随机白噪声。
它的应用场景:完全静音时,为了创造舒适的通话体验,在音频后处理阶段添加随机白噪声。
一般我比较喜欢使用VideoToolbox 进行视频数据处理
在iOS平台上对视频数据进行H.264编码有两种方式:
软件编码:用ffmpeg等开源库进行编码,他是用cpu进行相关计算的,效率比较低,但是比较通用,是跨平台的。
硬件编码:用VideoToolbox今天编码,他是用GPU进行相关计算的,效率很高。
在熟悉H.264的过程中,为更好的了解H.264,尝试用VideoToolbox硬编码与硬解码H.264的原始码流。
今天我们主要来看看使用VideoToolbox硬编码H.264。
用VideoToolbox硬编码H.264步骤如下:
1.初始化摄像头,output设定的时候,需要设置delegate和输出队列。在delegate方法,处理采集好的图像。
2.初始化VideoToolbox,设置各种属性。
3.获取每一帧数并编码。
4.每一帧数据编码完成后,在回调方法中判断是不是关键帧,如果是关键帧需要用CMSampleBufferGetFormatDescription获取CMFormatDescriptionRef,然后用
CMVideoFormatDescriptionGetH264ParameterSetAtIndex取得PPS和SPS;最后把每一帧的所有NALU数据前四个字节变成0x00 00 00 01之后再写入文件。
5.循环步骤3步骤4。
6.调用VTCompressionSessionCompleteFrames完成编码,然后销毁session:VTCompressionSessionInvalidate,释放session。
事实上,使用 VideoToolbox 硬编码的用途大多是推流编码后的 NAL Unit 而不是写入到本地一个 H.264 文件// 如果你想保存到本地,使用 AVAssetWriter 是一个更好的选择,它内部也是会硬编码的。