im电竞·(中国电子竞技平台)-共建电竞产业未来

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播-im电竞

im电竞

游戏攻略

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播

  为解决这一问题,继开源 14B 的实时数字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI团队(Soul AI Lab)推出了SoulX-FlashHead。这款1.3B参数的轻量化模型,能够在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度,同时实现高质量画质,为行业提供新的实时数字人方案。

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播(图1)

  Lite版本(高速率):单卡4090推理帧率可达96FPS,仅需6.4G显存,最高支持3路并发,让实时数字人模型真正走到了消费级终端上。

  Pro版本(高画质):单卡5090推理帧率16.8FPS,双卡可实时(25fps+),FID(视觉质量指标)和Lip-sync(唇形一致指标)在benchmark上达到了SOTA,甚至超过了更大参数量的模型,解决了“小模IM电竞平台型没好画质”的行业痛点。

  长视频生成的“身份漂移”一直是行业痛点。SoulX-FlashHead引入了“上帝视角”教师模型,利用 Ground Truth 作为先知锚点进行强约束。

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播(图2)

  严苛筛选:经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供了最纯净的“养料”。

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播(图3)

  画质新标杆:在高清视频(HDTF)评测中,Pro版本以8.31 (FID)和103.14 (FVD)的成绩刷新纪录,视觉细腻度超过 一些“大参数”模型。

  口型精准捕捉:面对野外复杂场景(VFHQ),凭借独创的“时序音频上下文缓存”策略,其Sync-C 得分高达 5.60,大幅领先此前相关工作,解决对不上口型的尴尬。

  速度“快”:仅凭 1.3B 的轻量化体量,Lite 版本在单张RTX 4090上跑出了96 FPS的吞吐量。这不仅是实时基准(25 FPS)的近4倍,推理效率更是行业同类主流模型的100倍以上。

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播(图4)

Soul App开源实时数字人生成模型SoulX-FlashHead轻量化模型支持“消费级”实时高保真直播(图5)

  今年1月,Soul AI Lab开源了实时数字人生成模型SoulX-FlashTalk,能够实现0.87s亚秒级超低延时、32FPS高帧率,并支持超长视频稳定生成。

  对比SoulX-FlashTalk,SoulX-FlashHead的价值在于,将高保真技术进一步从“算力机房”解放到了“个人工作站”,让更广泛的场景应用成为可能:

  7x24h矩阵直播:个人主播用一台游戏 PC,即可搭建高保真电商直播间。

  游戏NPC引擎:1.3B 体积极易集成,NPC 毫秒级响应,且不抢占核心渲染资源。

  AI一对一外教:支持 15 种语言,实时将音频转化为生动的教学画面。

关键词:

最新资讯