4 G 网络难以实现虚拟现实业务更高程度的视觉沉浸。 在云化牵引的网络架构下,不断提升的近眼显示技术对传输带宽提出了更高要求。若以角分辨率、视场角、色深、刷新率、焦平面作为衡量视觉沉浸感的主要测度,基于其乘数效应估算可得,完全体验等级所须未经压缩的原始带宽可达5Tbit/s。此外,对于多焦面显示技术,当同时聚焦的焦平面达到八个时,其4K显示的承载网络传输带宽需求高达26.4Gbps。对于全息显示技术,由于LCos-SLM是对全息编码图像进行加载显示,因此,其承载网络除须满足3.3Gbps传输带宽要求外,还须对待显示图像的光场信息进行大体量的全息计算,将待显示图像的光场信息上传到云端进行全息计算,针对4K的屏幕分辨率,所需的上行网络带宽需要达到3.3Gbps,针对120Hz的显示刷新率,单独全息图的计算时间需小于3ms。
(表 1 近眼显示技术网络能力需求)
内容制作的发展需要5 G 网络支撑。 随着终端用户对虚拟现实内容质量和实时性需求不断提高,内容制作对超高速网络的需求与日俱增,相关技术包括内容采集方向的实时抠像、全景拍摄,内容编辑方向的云端三维重建、虚实场景拟合、拼接缝合、空间计算,内容播放方向的WebXR。实时抠像 主要分为基于绿幕抠像和基于计算机视觉两个方向。基于绿幕的实时抠像技术是时延敏感型业务,虽然绿幕抠像技术发展较为成熟,但受限于当前网络环境,在时延和传输能力上仍需较大提升;而随着神经网络技术的发展,基于CNN(卷积神经网络)实现实时抠像的技术正在兴起,以Instagram、Snapchat等移动终端社交软件为代表,通过对已有的海量图片数据进行标记导入卷积神经网络进行训练,从而研发出可对动态人像进行实时抠图的技术,这种技术需要强大运算能力支持CNN进行训练与分析,考虑到终端设备的局限性,需要将运算放于云端进行,减轻终端算力负担,目前渲染帧率保证在不低于30fps。5G网络可以为实时抠像提供更高的渲染帧率,有望在今后提升至60fps甚至90fps。全景拍摄 通常通过一体多目式(非光场式)360°全景相机完成,常见的有2、4、6、8、16等多种相机组合类型,如Insta 360 Pro、Nokia的OZO等。此外,基于阵列式(光场式)相机的全景拍摄技术可通过上百个镜头组成相机矩阵进行拍摄,生成由两张具有一定视差的左右全景图组合的立体全景图,附带具有深度信息,成像效果令观众更具沉浸感。由于全景拍摄的相机数目较多时,特别是面向全景直播等时延敏感性业务场景,数据计算、传输量会急剧增加。面对全景拍摄带宽、时延双敏感的业务特点,5G网络可为全景直播提供传输保障。适配5G网络的云端三维重建 将采集到的点云信息上传云端,在云端完成点数据的滤波降噪、分割、配准、网格渲染等处理,构建3D模型。将三维重建放在云端,可极大减轻终端计算压力,提高三维重建精准度。同时,对云端重建的模型可结合云端神经网络进行深度特征提取、识别、追踪等,用于构建云端三维语义地图等。虚实场景拟合 是指在AR系统中需要将虚拟对象与真实场景进行实时匹配,以保证虚拟对象更加逼真融入现实世界。在虚实融合过程中,一是要达到几何一致性,保证虚拟对象符合真实世界物理原则;二是要达到时间一致性,保证交互得到及时反馈;三是要达到光照一致性,在几何与时间一致的前提下,提供实时光照追踪与渲染。针对为几何、时间、光照一致性提供的GPU集群,5G网络有助于承载海量数据实时传输。高性能拼接缝合 对多镜头拍摄的画面进行高精度拼接缝合,通过亮度色彩调整、对齐、畸变乔正、投影到球面等一系列处理,形成完整的全景视频。高性能拼接缝合须进行大量计算,通常由驻留本地的高性能服务器完成。在5G网络支持下,高性能拼接缝合技术可移到边缘云完成,实现高精度画质的全景直播。WebXR 技术针对目前硬件终端和内容服务商碎片化的发展现状,旨在推动内容生态加速成形,解决跨平台内容分发问题。2019年初W3C正式发布了WebXR Device API首个规范工作草案,提供开发基于 Web的沉浸式应用程序。WebXR处于早期阶段,目前支持的浏览器厂商包括Mozilla 和 Chrome,受支持的设备包括兼容ARCore的设备、Google Daydream、HTC Vive、Magic Leap One、微软 Hololens、Oculus Rift、三星 Gear VR、Windows 混合现实头戴设备等。5G技术高带宽、低时延的特性,将极大扩展Web端内容呈现能力,推动WebXR技术落地。
移动边缘计算、网络切片与 5G核心网QoS 有助于保证虚拟现实不断 进阶沉浸 体验 需求 。针对虚拟现实对带宽、时延双敏感的业务特性,5G网络的发展与商用部署需要做出针对性的优化,适配边缘计算、网络切片、5G QoS、智能运维、拥塞控制等网络传输技术,旨在弥合潜在技术断点,推动用户体验进阶。其中,边缘计算 借助网络边缘设备一定的计算和存储能力,实现云化虚拟现实业务的实时分发,如VR视频直播可以全视角流推送到网络边缘,再进行基于单用户视场角的信息分发。MEC可根据用户接入的位置选择合适的边缘数据中心提供计算服务,将推送内容同步缓存在本地,实现CDN的特性。此外,还可通过5GC能力开放接口获取终端的移动性事件通知,实现VR/AR业务的移动性和连续性保障。边缘云作为基础设施提供了渲染所须GPU资源及平台服务API,如视频分析、人脸识别、图像特征提取等,以供虚拟现实应用调用,从而降低应用算法复杂度,避免原始数据回传,节省回传带宽。网络切片 为AR/VR提供端到端网络资源的保障。Network Slice Orchestration提供了NSMF,下方不同领域(例如SDN,MANO,EMS等)各有相对应NSSMF。NSMF负责管理和编排NSI (Network Slice Instance) 以及根据网络片相关要求推导网络片子网相关要求。此外,NSMF包括跨域切片管理器的功能,该管理器负责NSI生命周期管理(即预先提供,实例化,配置和激活以及退役),并通过不同领域内的多维协调满足E2E要求。 NSMF根据每个技术领域的能力分解成多组要求,将每个需求部分映射到相关技术领域。为保证整体端到端的要求,NSMF汇总了每个技术领域的网络服务性能,然后执行相应的调整和配置以确保闭环控制。NSSMF负责NSSI (Network Slice Subnet Instance) 的管理和协调。NSSMF包括用于不同技术域的域片管理器,如接入网络NSSMF、核心网络NSSMF以及传输网络NSSMF或组合域NSSMF。作为逻辑实体,NSSMF负责在单个技术或组合域中预先提供实例化、配置、激活以及退役子网。 NSSMF确保在每个单个或组合域中实现对分解的E2E需求能力的实时保证。VR/AR端到端的服务依据不同领域所需提供的配置与设定,由NSFM下发至NSSMF并实际到各领域执行,最终实现端到端的服务满足;不同于LTE 基于承载的QoS管控,5G QoS 模型基于QoS流,5G QoS模型支持保障流比特速率(GBR QoS)的QoS流和非保障流比特速率(Non-GBR)的QoS流,5G QoS模型还支持反射QoS。在一个PDU会话中,QoS流是可区分QoS的最小单位。QoS流由QFI标识。QFI包含在N3的数据包头中。在用户平面,同样QFI的流得到同样的转发处理(例如排队、许可控制门限)。QoS流在PDU会话建立或修改时建立。5GC 中SMF负责QoS的控制,建立一条PDU会话时,SMF会给UPF、AN、UE配置相应的Qos参数。对于上行数据,UE根据QoS规则对数据包进行匹配,数据包从匹配上的QoS流以及其对应的AN通道(对应的RB)向上传输;对于下行数据,UPF根据PDR对数据进行匹配,数据包从匹配上的QoS流以及其对应的AN通道下下传输。如果一个数据包没有匹配上任何一个QoS规则(上行)或PDR(下行),则该数据包会被UE或UPF丢弃。这种基于流的QoS机制,对于VR/AR这类实时业务,是实现优化用户体验的基础。
(图 6 端到端网络切片实现机理)
(图 7 5G QoS机制图)
虚拟现实渲染处理对带宽和时延提出了更高要求。 渲染处理是虚拟现实领域的关键技术,直接影响内容呈现与用户体验效果。当前移动式虚拟现实终端硬件性能有限,仅能输出不高于智能手机图形处理效果的3D模型。为提高虚拟现实终端的图形处理能力以及3D图形的显示效果,可利用5G网络及云端渲染优化画面质量。云渲染 旨在帮助用户在中低配头显上实现渲染能力更强的PC级虚拟现实沉浸体验,降低终端购置成本。对于虚拟现实这一时延敏感型业务,云渲染引入的新增时延对于用户体验潜在影响较大。此外,3D应用对于用户指令的响应高度敏感,如进行虚拟现实游戏时,用户指令须得到及时响应,若稍有时延,容易引发眩晕感。混合 云 渲染 旨在解决云渲染所引入的新增时延以及编码压缩造成的画质损失,将渲染处理拆分为云端与本地渲染协同进行,利用云端强大的渲染与存储能力实现静态画质与视觉保真度的提升,同时基于本地渲染满足时延控制要求。5G网络低时延的特性可有效降低分步渲染产生的新增时延,进一步降低渲染损失和功耗。由于采用云端渲染处理、终端交互呈现的技术架构,云渲染、混合云渲染对网络带宽、时延、可靠性提出更高要求,对当前高汇聚、高收敛承载网络面临更大挑战。深度学习渲染 成为人工智能在图像渲染领域的重要技术创新,可实现图像降噪、抗锯齿以及因注视点渲染带来的渲染负载减少。深度学习渲染依赖于云计算庞大计算能力,在中心云完成深度学习渲染训练,之后将训练集同步到边缘云,并借助MEC降低实时渲染时延,输出超高画质效果。目前,学术界与产业界正在越来越多地投入深度学习渲染这一新兴热点中。光场渲染 是基于图片集进行影像渲染,在不需要图像深度信息或相关性的条件下,通过对相机采集到的图像集进行渲染计算。在实时渲染的情况下,光场渲染比三维模型生成的画面更加真实。光场渲染须存储空间中所有光线的方向和角度,进而渲染出场景中所有表面的反射和阴影,更大的数据流契合5G网络传输特性。
(表 2 云渲染下不同分辨率和刷新率的设备对带宽和时延的需求)
基于5 G 的端云协同模式触发虚拟现实感知交互能力跃升。 业界主流移动虚拟现实终端可通过基于传感融合的SLAM技术实现环境感知、设备定位和地图三维重构等功能。实时定位技术日趋成熟,三维重构发展相对缓慢,目前尚难以构建出用于导航、避障等需求的高精度地图或用于人机互动的语义地图,上述场景有赖于图像分割、物体识别、高精度表面检测和三维建模领域的融合创新。基于5G网络的环境感知可分为初期和成熟两个阶段,初级阶段主要解决现有终端侧三维重构的缺失,通过与云端的低时延通信实时建立并保存地图。成熟阶段须在云端建立完整的语义地图,各终端能够实时感知自身定位、获取地图信息并完成交互。具言之,5G对感知交互能力的提升主要表现在机器视觉、云端神经网络和云端语义地图三方面。机器视觉 基于深度学习的语义分割开始在识别重建中频繁采用,准确获取图像中的物体类属及对应的边缘Mask与Mesh信息,成为未来有针对性进行重建的必要步骤。2019年6月苹果发布ARKit3套件,展示了全新人体遮挡效果,通过基于机器视觉的实时肢体姿态捕捉,将真实人体、虚拟场景与真实环境相互融合。目前,此类融合基于本地完成,随着终端对现实世界理解的不断深入,需要速度更快、算力更强的神经网络进行识别、分割、跟踪、匹配等复杂任务处理,基于5G的云端处理方式有助于放大机器视觉对环境感知作用,以更低时延完成实时空间感知与语义标记。云端神经网络 可以同时为多种不同的交互模态提供神经网络运算,如同时处理语音交互与手势交互。由于云端神经网络借助超大型CPU与GPU集群进行运算,可处理更加复杂的业务,如自然语言识别等。5G网络可降低多类自然交互产生的叠加时延,降低运算处理和交互耗时。同时,基于5G云端架构,经过训练的神经网络可以部署到边缘云,在面对异地多人多端实时交互的虚拟现实系统时,以更低时延处理大量交互反馈信息。此外,云端神经网络可以与空间计算相结合,在5G网络下提供更加贴合物理世界的虚拟信息和渲染效果,并对交互信息进行分析和预判,提升物理世界中虚拟信息的交互体验。云端语义地图 把获取的点云特征与云端预先准备好的数据库进行比对,通过具体的语义特征对点云地图进行标记,达到辅助理解。5G网络为云端语义地图提供算力更强的云端大型GPU集群及高速带宽网络,基于5G云端的语义地图,能更好的结合神经网络,构建广域地图信息,将物理世界进行数字重建和标记,同时对AR云的搭建提供了极大的技术支持。
(图 8 5G云化虚拟现实技术树)