AI 影音创作

最新收录

Duix.Avatar

Vidnoz AI

Linly-Talker

Duix.Avatar

完全开源免费的离线 AI 数字人克隆工具包，30秒极速克隆形象与声音，文本或语音驱动播报，全程本地运行保护隐私。

Vidnoz AI

免费在线 AI 视频生成平台，1900+ 虚拟主播形象和 2000+ AI 语音，支持 140+ 语言，几分钟生成专业数字人口播视频。

Linly-Talker

开源数字人智能对话系统，整合 LLM、语音识别、TTS、语音克隆与面部驱动，上传照片即可与数字人实时多轮对话。

面向企业培训的 AI 数字人视频生成平台，80+ 虚拟主播、75+ 语言配音，支持语音克隆和 PPT 一键转视频。

面向职场学习的 AI 数字人视频平台，支持 100+ 语言翻译、互动测验和 SCORM 导出，与企业 LMS 无缝集成。

硅谷企业级 AI 视频平台，提供数字人播报、实时流媒体虚拟人和 150+ 语言视频翻译，支持 4K 渲染，入选 Inc 5000 第一名。

AI 文本转视频平台，1300+ 超逼真语音和丰富数字人形象，支持博客链接一键生成播报视频，被誉为“Canva for Video”。

Fish Audio 是一款免费的AI语音合成与声音克隆平台，仅需10秒样本即可克隆逼真人声，支持13种语言，性价比极高。

VPot FREE 是一款免费无广告、免安装的本地语音合成软件，支持超长文本处理，所有数据不上传云端，保护用户隐私。

NiceVoice 是一款免费在线AI声音克隆工具，仅需5-30秒音频即可生成99%相似度的个性化声音，支持免注册使用。

Coqui TTS

Coqui TTS 是GitHub 20.5K星标的开源语音合成库，支持数十种语言和音色克隆，模块化架构可灵活扩展。

GPT-SoVITS-WebUI

GPT-SoVITS-WebUI

GPT-SoVITS-WebUI 是一款开源免费的AI语音克隆工具，仅需5秒声音样本即可生成高相似度语音，MIT协议可商用。

Chatterbox TTS

Chatterbox TTS

Chatterbox 是 Resemble AI 开源的TTS模型，首个支持情感夸张控制，5秒零样本克隆，性能超越ElevenLabs。

Dogdub（狗配音）

Dogdub 是一款完全免费的一站式AI音频工作室，集文本转语音、声音克隆和多角色对话生成为一体，适合有声书和播客创作。

Vocloner 是一款完全免费的在线AI语音克隆工具，无需训练即可快速生成高相似度克隆声音，操作极为简单。

AnyVoice 是一款在线AI语音克隆平台，仅需3秒音频样本即可创建超逼真定制语音，支持中英日韩多语种合成，采用银行级加密。

Balabolka

Balabolka 是一款老牌免费桌面级TTS软件，支持多格式音频导出，完全离线运行，可调用系统SAPI语音引擎实现多语言合成。

Edge TTS

Edge TTS 是调用微软Edge浏览器语音引擎的开源工具，支持40+语言，完全免费，通过命令行或Python即可使用。

CosyVoice

CosyVoice 是一款面向中文优化的开源AI语音克隆与TTS工具，音质出色部署简便，适合本地化语音合成。

Genmo (Mochi 1)

Genmo (Mochi 1)

由顶尖学术团队打造的开源视频生成平台，旗舰模型 Mochi 1 在运动质量和提示词遵循度上达到开源 SOTA，Apache 2.0 许可下免费商用。

GAGA.art (Sand.ai)

GAGA.art (Sand.ai)

由曹越团队打造的人物表演 AI 视频生成平台，上传图片+输入台词即可生成影视级口型同步视频，支持双人互动和复杂情绪捕捉。

萌动AI (Animon)

全球首个动漫专属 AI 视频生成平台的国内版，输入想法或上传图片即可一键生成高质量动漫视频，支持中国风等多种本土化风格。

Higgsfield AI

汇聚图片和视频生成功能的 AI 创作平台，独家首发字节跳动 Seedance Pro，内置 30+ 电影级预设，支持无限次免费生成，月访问量近千万。

整合 PixVerse、Veo 3、Kling 等十余款顶尖 AI 模型的多模型聚合创作平台，一站式完成文生视频、图生视频，免费套餐无水印。

专为营销人员和社交媒体创作者打造的多模态 AI 视频平台，整合 Veo 3.1、Sora 2 等顶级模型，配备 150+ 专业模板和智能引导式创作助手。

Temvideo (布尔向量)

全球首个面向营销场景的 AI 视频智能体，专注跨境电商视频制作，支持批量混剪、多语言翻译和高 ROI 模板，对最终投放效果负责。

ClipClap.ai

全球首个 AI 营销短视频智能体，搭载 Seedance 2.0 多模态大模型，输入商品链接即可一键生成专业级营销视频，支持爆款跟创和对话式创作。

Video Ocean (Open-Sora)

基于 Open-Sora 开源项目的 Web 视频生成平台，支持文本、图像和角色三种输入模式，无需专业知识即可生成高质量视频，致力于视频制作民主化。

Wan 2.2-S2V (通义万相)

Wan 2.2-S2V (通义万相)

阿里通义万相推出的 14B 音频驱动视频生成模型，一张图片+一段音频即可生成电影级数字人视频，发布即开源，每日赠送免费积分。

基于扩散模型的免费AI音乐生成平台，支持无限量文本转歌曲创作，生成最长4分45秒的完整音乐，并内置音轨分离和局部重绘等编辑功能。

首个高质量开源全曲AI音乐生成模型，可将歌词转化为最长5分钟的完整歌曲，Apache 2.0协议，质量媲美商业系统。

Amped Studio

完全在浏览器中运行的在线DAW与AI音乐工作站，可生成5-9条独立分轨的完整编曲，支持VST3插件和多人协作。

拥有超过100款AI创意工具的在线平台，可将文本和图片转化为音乐，支持古典大师风格模仿，生成速度极快。

国内首个对话式AI音乐创作Agent，通过聊天即可创作专业级音乐，支持多模型切换、AI MV生成和母带处理，100%版权归用户所有。

国内DeepMusic出品的随身AI音乐工作站，从歌词、旋律到编曲和虚拟演唱覆盖创作全流程，支持音符级深度编辑。

TemPolor

专注于免版税AI音乐生成的平台，支持视频智能配乐，已生成超1000万首歌曲，附带终身商业使用授权。

MusicGPT

集音乐生成、音效制作、TTS语音合成和AI音频编辑于一体的全能音频创作平台，支持自然语言编辑音频。

30秒极速生成原创AI歌曲与社交视频的一体化平台，只需描述氛围即可创作完整音乐和可视化视频。

YooHe

国内AI音乐后期精加工平台，拥有独家STEMX音轨分离技术和歌声转换能力，与ACE-STEP开源模型深度融合。

D-ID Creative Reality Studio 能将一张照片变成会说话的数字人，文本或音频驱动生成视频，用于营销、培训和内容创作。

HeyGen 让您创建逼真的AI数字分身或使用预置虚拟主播，用文本/音频驱动生成口型同步的播报视频，面向自媒体与营销。

Synthesia

Synthesia 是全球头部的AI数字人播报平台，拥有140+虚拟演员，文本转视频生成，专为企业培训与营销。

DeepBrain AI

DeepBrain AI Studios 提供超写实AI数字人播报视频生成，文本驱动，适合新闻、培训、金融等高要求场景。

硅基智能

硅基智能旗下硅语数字人播报平台，提供数字分身定制、短视频口播和7×24直播带货全栈服务。

商汤如影

商汤如影

商汤如影是商汤科技出品的超写实AI数字人平台，提供2D/3D数字人定制与文本/音频驱动播报，品质卓越。

Hour One 将文字快速转为真人级虚拟主播视频，支持多角色对话，专为企业培训与营销打造。

网易伏羲有灵虚拟人

网易伏羲有灵虚拟人

网易伏羲有灵虚拟人平台提供3D虚拟形象创建与AI播报，照片生成模型，文本/语音驱动，支持虚拟直播。

利用先进物理引擎实现角色动作迁移的AI视频生成工具，让图片人物跳起舞来，效果自然逼真。

12

职场人导航（www.zcrdh.com）是为上班族与打工人打造的一站式工具导航网站，精选办公工具、AI工具、效率软件、摸鱼网站与生活实用资源，覆盖日常办公、工作提效、学习成长与下班生活等多种场景，帮助你快速找到真正好用的网站与软件，提升工作效率与生活体验。

友链申请免责声明广告合作关于我们

Copyright © 2026 职场人导航浙ICP备2023011426号-10