机械之心专栏
作者:Snap钻研院 ,更高香港中文大学 ,清写香港大学,实的式妄南洋理工大学
论文地址: https://arxiv.org/pdf/2310.08579.pdf
Github 地址: https://github.com/snap-research/HyperHuman
1. 钻研布景与念头
随着散漫模子的人体崛起,一些典型的天生模子好比 Stable Diffusion, DALL-E 2 等在文本天生图像使命上揭示了使人震撼的能耐。但一个清晰的模H漫刷缺少是 ,这些模子在文本天生人体图片的于隐使命上展现患上不精美绝伦 ,致使很难天生具备公平妄想或者做作姿态的想散新多项人体(好比精确的四肢数目以及适宜人体物理妄想的多少多拓扑) 。眼前的更高主要原因在于 :做作情景下的人体是铰接的 ,且搜罗刚性以及非刚性的清写形变;天生高品质的人体图片需要文本难以形貌的妄想信息 。
为了在文生图中引入妄想操作信息,实的式妄近期的人体代表使命如 ControlNet[1],T2I-Adapter [2] 削减了颇为轻量的天生 、即插即用的模H漫刷可学习分支 ,用以调节预磨炼的于隐文生图散漫模子。可是,原本散漫模子分支以及新退出的可学习分支之间的特色差距,每一每一会导致生乐成果与操作信号的不不同 。
为了处置这个下场, HumanSD [3] 运用了一种原生的操作向导方式,即直接将人体骨架图与散漫模子输入在特色维度妨碍拼接。尽管确定水平上处置了天生 - 条件不同过错齐的下场,但规模于天生艺术画风的图片,在天生品质、多样性以及写实性上仍有美满 。此外 ,以前的大部份使命仅仅把操作信号作为一种输入或者向导条件 ,却漠视了人体概况与差距妄想信息之间多层级的分割关连 。若何天生一个传神的 、妄想公平的人体图片依然是一个未处置的下场 。
在本文中,Snap 钻研院 、香港中文大学、香港大学、南洋理工大学团队推出了最新的高写实人体天生模子 HyperHuman,经由对于显式的人体概况与隐式的多层级人体妄想妨碍散漫学习 ,在 zero-shot 的 MS-COCO 数据集上取患了最佳的图片品质(FID, FID_CLIP, KID)与天生 - 人体姿态不同性(AP, AR)目的服从,且取患了优异的文本 - 图像对于齐目的(CLIP score)服从 ,并在普遍的用户主不雅评测中取患了最优的服从 。
2. 中间措施
为了引入人体骨架图以妨碍姿态操作 ,最重大的措施是经由特色残差或者输入串联 。可是 ,这种做法依然存在多少个下场