英特尔实验室携手Blockade Labs推出全新AI扩散模型,可通过文字生成3D影像内容

近日,英特尔实验室与 Blockade Labs 宣布,合作推出 Latent Diffusion Model for 3D(LDM3D)新颖的扩散模型,可以使用生成式 AI 创造栩栩如生的 3D 视觉内容。LDM3D 是业界首款使用扩散过程产生深度图的模型,建立可 360 度观看的生动、沉浸式 3D 影像。从娱乐、游戏再到建筑、设计等方面,LDM3D具备为内容创作、元宇宙应用和数位体验带来革命性变化的潜力。

英特尔实验室携手Blockade Labs推出全新AI扩散模型,可通过文字生成3D影像内容

英特尔实验室 AI∕ML 研究科学家 Vasudev Lal 表示,生成式 AI 技术可以进一步扩大和提升人类的创造力并节省宝贵的时间。然而,今日绝大多数的生成式 AI 模型均侷限在产生 2D 影像,仅有极少数能够从文字提示中产生 3D 影像。与目前潜在扩散模型(latent diffusion model)不同的是,LDM3D 使用参数数量几乎相同的模型,从给定的文字提示中产生影像和深度图。相较于标准深度估测后处理法,可为影像中每个像素提供更准确的相对深度,为开发者节省建构场景所耗费的大量时间。

英特尔指出,封闭的生态系仅具备有限的规模,而英特尔真正落实 AI 民主化的承诺,未来将透过开放式生态系让人们更广泛地运用 AI 优势。近年来,在机器视觉领域,特别是生成式AI取得显著进展。然而,今日许多先进的生成式 AI 模型仅限于产生 2D 影像。与通常仅能从文字提示中产生 2D RGB 影像的现有扩散模型不同,LDM3D 让使用者能够从给定的文字提示中同时产生影像和深度图。LDM3D 在使用与潜在扩散模型几乎相同的参数数量情况下,相较标准的深度预测后处理法,为每个像素提供更为精确的相对深度。

另外,这项研究可能彻底改变人们与数位内容的互动方式,使用者能够以过往想像不到的方式去体验他们的文字提示。LDM3D 所产生的影像和深度图,让使用者能够把静谧的热带海滩、科幻宇宙中的未来世界,透过文字叙述转换成精细的 360 度全景图。这种捕捉深度资讯的能力可以立即强化整体的真实感和沉浸感,为娱乐、游戏、室内设计、房地产销售,以及虚拟博物馆和沉浸式虚拟实境 (VR) 体验等各式各样的行业开启创新应用。

英特尔强调,LDM3D 是由 LAION-400M 数据库中的 10,000 个样本进行训练,该数据 库内含超过 4 亿个影像与文字标注。该团队使用 Dense Prediction Transformer(DPT)大型深度预测模型(先前由英特尔实验室所开发)对训练数据库进行标注。DPT 大型模型为影像中的每个像素提供高度精确的相对深度。LAION-400M 数据集专为研究目的而打造,让广大的研究人员和其他有兴趣的社群,以更大的规模进行模型训练测试。LDM3D 模型在搭载 Intel Xeon 处理器和 Intel Habana Gaudi AI 加速器的英特尔 AI 超级电脑上进行训练。生成的模型和流程结合产生的 RGB 影像和深度图,可以产生 360 度视角,带来沉浸式体验。

而为了证明 LDM3D 的潜力,英特尔和 Blockade 的研究人员开发出一款利用标准 2D RGB 照片和深度图来创造沉浸式、可互动 360 度视角体验的应用程式──DepthFusion。DepthFusion 使用以节点为基础的可视化程式设计语言 TouchDesigner,该语言应用于即时互动多媒体内容,能将文字提示转换为可互动和沉浸式的数位体验。LDM3D 模型为可同时建立 RGB 影像及其深度图的单一模型,可节省存储芯片耗用量并改善延迟。

英特尔进一步指出,LDM3D 和 DepthFusion 的推出,为多视角生成式 AI 和电脑视觉的进一步发展铺路。英特尔将继续探索运用生成式 AI 来扩大人类的能力,并建立强大的开放原始码AI研发生态系,让这项技术的使用更加民主化。英特尔持续大力支持 AI 开放式生态系,目前正透过 HuggingFace 进行 LDM3D 开源工作,将让 AI 研究人员和从业人员能够进一步改善系统,并为客制化应用进行微调。

编辑:芯智讯-林子

0

付费内容

查看我的付费内容