WebRTC(Web Real-Time Communication),即网页实时通信,简而言之它是一个支持网页浏览器进行实时语音对话或实时视频对话的技术,核心技术包括视频的采集、编解码、网络传输、渲染等功能。
由于该项技术 API 是使用 C++ 进行开发的,因此天生拥有跨平台的能力,在 Google 公司和开源社区的帮助下支持在Windows、Linux、Mac、Android、iOS等平台上使用。WebRTC于2011年6月1日在开源社区开源,并在 Google、Mozilla和Opera的支持下被W3C组织接收,成为了 Web 实时音视频通信领域的推荐标准。目前市面上大多数主流的浏览器,例如 Safari、Chrome、Firefox和Edge都支持直接使用 WebRTC 进行实时音视频通信。
WebRTC被广泛应用于语音通话、视频聊天、在线会议、远程医疗、在线教育和互联网安防监控等等。因此将该技术应用到互动直播课堂中,丰富教育机构的课堂教学方式。
WebRTC 的整体框架图如上图,图中最上层的部分是提供给不同应用开发者使用的指定平台API接口,为了后续的跨平台特性,WebRTC 还提供了 C++ 的API接口。下面是对整体框架中的重要部分进行介绍:
- Muti-Platform API:这一层 API 是提供给不同平台应用软件开发者使用的 API,这些API 都会提供三个功能接口,分别是MediaStream、RTCPeerConnection和RTCDataChannel。MediaStream接口用于捕获和存储客户端的实时音视频流,便于客户端的进行音视频采集和渲染。RTCPeerConnection接口是WebRTC 的核心接口,它封装了WebRTC连接的管理,是承载着 WebRTC 连接机制的接口。RTCDataChannel接口是进行WebRTC 连接数据传输的数据通道接口。多平台API有很多,上图的Web API和 iOS API 分别是网页和移动端平台的一个代表,分别是用 JavaScript 和 Objective-C语言进行编写,让前端开发者和iOS原生应用开发者可以便捷开发出基于 WebRTC 技术的实时音视频应用程序。
- WebRTC C++ API:这一层的API是提供给浏览器厂商、平台SDK开发者使用的 C++ API,不同的平台可以通过各自的C++接口调用能力,对其进行上层封装,满足跨平台的需求。
- Session management/Abstract signaling:该层是WebRTC的会话层,主要用于进行信令交互和管理 RTCPeerConnection的连接状态。
- Voice Engine:音频引擎模块是一系列音频多媒体处理框架,包括Audio Codecs、NetEQ for voice、Acoustic Echo Canceller(AEC)和Noise Reduction(NR)。其中,Audio Codecs是音频编解码器,当前 WebRTC 支持ilbc、isac、G711、G722和opus等等;NetEQ for voice 是自适应抖动控制算法以及语音包丢失隐藏算法,用于适应不断变化的网络环境;AEC 是回声消除器,用于实时消除麦克风采集到的回声;NR是噪声抑制器,用于消除与相关 VoIP的某些类型的背景噪音(嘶嘶声、风扇噪声等等)。以上多项音频处理技术集成在一起,使得WebRTC在确保音质优美的同时还减小了缓冲延迟。
- Video Engine:视频引擎模块是一系列视频多媒体处理框架,包括Video Codec、Video Jitter Buffer和Image Enhancement。其中,Video Codec是视频编解码器,当前WebRTC 支持VP8、VP9和H.264编解码;Video Jitter Buffer是视频抖动缓冲器,用于降低由于视频抖动和视频信息包丢失带来的不良影响;Image Enhancement 是图像质量增强模块,用于对摄像头采集回来的图像进行处理,包括明暗度检测、颜色增强、降噪处理等。以上多项视频处理技术集成在一起,使得WebRTC在确保画面优美的同时还提高了流畅度。
- Transport:数据传输模块是WebRTC对音视频进行P2P传输的核心模块,包括SRTP、Multiplexing和P2P。其中,SRTP是基于UDP的安全实时传输协议,为WebRTC中音视频数据提供安全单播和多播功能;Multiplexing 是多路复用技术,采用多路复用技术能把多个信号组合在一条物理信道上进行传输,减少对传输线路的数量消耗;P2P是端对端传输技术,WebRTC 的P2P技术集成了STUN、TURN和ICE,这些都是针对 UDP 的NAT的防火墙穿越方法,是连接有效性的保障。