日前,腾讯混元发布图生视频模子并对外开源,同期上线对口型与作为启动等玩法,并缓助生成配景音效及2K高质料视频。
据先容,基于图生视频的才气,用户只需上传一张图片,并精辟描摹但愿画面怎么领悟、镜头怎么报复等,混元即可按照用户要求让图片动起来,造成5秒的短视频,还能自动配上妥当的配景音效。此外,上传一张东说念主物图片,并输入但愿“对口型”的笔墨或音频,图片中的东说念主物即可“谈话”或“唱歌”;如若礼聘作为模版,还能一键生成同款舞蹈视频。
腾讯方面暗意,这次开源的图生视频模子,是混元文生视频模子开源责任的继续,模子总参数目保执130亿,适用于多种类型的变装和场景,包括写实视频制作、动漫变装以致CGI变装制作的生成。开源践诺包含权重、推理代码和LoRA检修代码,缓助竖立者基于混元检修专属LoRA等繁衍模子。当今在Github、HuggingFace等主流竖立者社区均可下载体验。
据混元开源本领论述闪现,混元视频生成模子具备生动的扩张性,图生视频和文生视频在疏导的数据集上开展预检修责任。在保执超写实画质、畅通演绎大幅度作为、原生镜头切换等特质的基础上,让模子简略捕捉到丰富的视觉和语义信息,并集合图像、文本、音频和姿态等多种输入条目,完了对生成视频的多维度为止。
而已涌现,混元视频生成模子开源以来,一直保执较高的热度,客岁12月登顶huggingface全站趋榜第一,当今Github平台上Star数朝上8.9K。多位竖立者自愿制作基于社区Hunyuanvideo的插件与繁衍模子,累积朝上 900 个繁衍版块。更早开源的混元DiT文生图模子,在国表里繁衍模子数目多达1600多个。当今,混元开源系列模子如故完好意思笼罩文本、图像、视频和3D生成等多个模态,在Github 累计得到超 2.3 万竖立者珍爱和star。
南边+记者 叶丹开云体育