IT之家火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

IT之家
火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性 Telegraph | 原文

火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性 - IT之家

IT之家 6 月 24 日消息，昨天火山引擎正式发布了豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持参考生成：把文本、音频任一模态作为输入，可以端到端生成目标音频。并且，它能在长时生成场景中保持多角色音色的一致性，大幅减少后期修音工作。借由豆包音频生成模型 1.0，还可以在单条 Prompt 中编排角色对白、情绪语气、背景音乐、环境氛围等，直接产出具备叙事张力的完整音频作品，改变了过往人声、音效、音乐单独制作再合成剪辑的传统工作流。火山方舟已开启豆包音频生成模型 1.0…

Powered by BroadcastChannel & Sepia