PICO对PICO 4 Ultra的MR功能进行了全面解读
(中国AI网 2024年11月26日)PICO4 Ultra的核心卖点之一是MR。它具备实时扫描、锚点、云锚点、房间标定、语义识别等环境感知能力,从而为用户和开发者带来了前所未有的交互式体验可能性。同时,这款设备提供了MR安全、快速安全区设置(一键安全区)、全自动房间标定等应用,进一步提升了用户的使用安全性和便捷性。
在日前一篇博文中,PICO就对PICO 4 Ultra的MR功能进行了全面解读:
1. 实时网格
开发者指南:https://developer.picoxr.com/zh/document/unity/spatial-mesh/
PICO4 Ultra依托强大的深度传感器和深度感知算法,对环境信息进行实时扫描,形成环境表面信息提供给系统和应用层,让头戴具备碰撞、遮挡的虚实交互能力,以及更舒适的安全能力。
1.1 技术亮点
结合感知模型和分块策略,提供完备的环境语义网格
实时语义网格分别使用两个感知模型分别来计算语义信息和深度信息,采用分块管理策略实现扫描范围广,且性能占用低,同时支持部分场景下的历史网格的找回和更新,实时更新环境网格信息,降低重复扫描的成本。
其中,深度模型基于双目 + ToF 的神经网络模型融合方案,利用海量数据以及大模型标注,实现 zero-shot 高精度深度感知能力,提供给系统和应用层强大的深度感知能力,检测类型、距离与精度均达到行业先进水平。
结合实时网格平面估计,提升语义网格精度
实现融合语义信息的网格平面估计能力,对属于平面区域的网格进行拍平和语义矫正功能,提升平面区域网格的精度和语义准确度。
实现实时网格简化,提供多层 LOD 网格数据
结合分块策略和平面特性,在实时网格简化处理上,采取优先针对平面区域简化的策略,而后再针对非平面区域进行简化,这样尽可能地使简化后的网格在不丢失网格精度的同时,网格数量也大幅减少,这样的策略在家居场景中十分有利。
并且持续优化实时网格简化策略,摆脱网格分块的约束,让简化程度更一步提升的同时,网格拓扑质量也进一步改善,该效果对应版本将在下一个系统版本中发布。
结合语义信息和实时网格处理,实现动态物体的精准隔离
针对动态场景,结合语义分类信息可以提供环境分类信息,同时结合实时细小噪声网格剔除功能,可以实现精准的动态物体和噪声网格的去除。
1.2 能力展示
1.3 系统级应用场景
安全区自动高度检测:PICO 4 Ultra配备了自动高度检测功能,在快捷设置安全边界时,同步检测地面高度。
2. MR 安全防护机制
开发者指南:https://developer.picoxr.com/zh/document/unity/mr-safeguard/
通过实时环境感知,设备提供了MR安全机制。它可以实时感知物理环境,及时提醒用户附近的障碍物,确保用户能够在虚拟与现实之间自如切换的同时保持安心。
3. 空间音频
开发者指南:https://developer.picoxr.com/zh/document/unity/spatial-audio/
空间音频技术为用户提供逼真的声场体验。在 11 月即将上线的新版本空间音频能力中,将结合 MR 实时网格能力,在 MR 体验过程中,感知用户周围真实空间表面信息,设备根据用户的方位和动作,动态调整音频效果,使声音与视觉效果完美结合,进一步提升了虚拟现实互动的沉浸感。
4. 锚点及云锚点
开发者指南:https://developer.picoxr.com/zh/document/unity/spatial-anchor-overview/
在PICO4 Ultra上,支持应用在空间中放置任意位置的锚点,用于记忆和召回物品的位置信息。锚点的附近将会建立锚点地图,用于召回时对房间信息进行匹配,同时也可用于多人共享体验中的云锚点分享和定位。这为 MR 开发者提供了位置记忆的可能性,就像真实物体放置在空间中不会消失一样,虚拟物体,也可以做到下次回来时仍可以看到摆放在原位。
锚点地图的扫描和建图技术,引入了多图像注意力机制,这可以节省地图存储资源,并提升建图精度。
而在锚点的召回和定位时,支持多队列,多任务,分步加载,节省内存占用资源,提升定位效率。同时引入基于用户行为分析的锚点修正策略,消除累积误差。
云锚点多人同一空间共享方面,支持端云结合的多人共建机制,实现多用户,多设备同时定位的同时,极大程度减小网络资源占用,提升定位速度。针对共享,还使用了自动遍历识别机制、多帧匹配结果、历史定位信息和锚点关联关系、记忆机制、多模态混合,保证了共享锚点的召回率。
5. 房间标定
开发者指南:https://developer.picoxr.com/zh/document/unity/scene-capture/
房间标定应用会在三方应用调用接口时唤起,引导用户完成对房间的预扫描并构建出用户所处现实环境的几何结构,同时也将识别天花板、地面、墙面、门、窗户和开口。房间标定应用还会识别房间特征和家具,如桌子、椅子和沙发。这些信息将有助于你的应用构建一个足够通用的混合现实体验,可确保用户身处在不同的真实环境结构下,依旧能结合身边的现实环境进行游戏。
为用户构建混合现实场景所需要预知用户所处的现实环境结构,需要获得房屋几何结构信息和语义信息来产生更多地互动体验,那么推荐你使用场景标定的相关API进行开发。这套框架使用设备的传感器、不断训练 DL 模型并结合渲染功能来捕获用户所处房间的现实环境。
与顾客互动,简化工作流程:通过在应用程序中接入房间标定,可以辅助创建房间户型图,帮助顾客做出更全面的决策,简化建筑和室内设计的工作流程。
实时扫描:房间标定允许开发者通过三方应用程序调起,完成用户体验和扫描引导,利用内建辅导 UI 来优化扫描,并通过视觉反馈展示实时扫描进度。
3D房间布局估计:房间标定的核心之一是3D房间布局估计,它使用两个神经网络来检测墙壁、开口、门和窗户,并将这些2D线条提升到3D空间中。
3D对象检测:房间标定的3D对象检测管道能够直接在3D空间中识别10个对象类别,覆盖主要的房间定义家具类型,如柜子、沙发、桌子、椅子、床、屏幕和窗帘。
扫描指导通知:房间标定提供实时反馈,指导用户调整光照、扫描速度和与墙壁的距离,以确保算法接收到高质量的输入。
数据收集和标记:为了确保算法能够适应不同房间类型的变体,房间标定从多个国家的多个家庭中收集数据,以增加场景多样性并减少数据集中的偏差。
高效的性能:RoomPlan 能够在不牺牲 CPU/GPU 性能的情况下,让用户扫描大房间,避免了因热限制导致的帧率下降等问题。