← 返回博客

2026-06-11

ElevenLabs 怎么用?2026年AI配音/语音克隆国内访问完整指南

我有个做自媒体的朋友,前阵子跟我说,他花了一个周末录了 30 分钟的旁白,最后剪视频的时候发现有两段录音环境太嘈杂,全部要重录。听到我说"为什么不用 AI 配音",他第一反应是"机器人的声音太假了"。

我把 ElevenLabs 生成的样片发给他听,他沉默了 10 秒钟,说了一句:"这是真人在念吗?"

AI 配音这两年进化太快,2026 年的 ElevenLabs 已经能做到近乎以假乱真的程度。今天就把注册、使用、价格、以及国内怎么稳定访问,一次性说清楚。

ElevenLabs 是什么?

简单说,ElevenLabs 是一家专门做 AI 语音生成的公司,2022 年成立,总部在纽约。它的核心能力有两个:

一是文字转语音(Text-to-Speech),你输入一段文字,它用 AI 念出来。可以选男声、女声、不同语言、不同情绪。

二是语音克隆(Voice Cloning),上传一段你自己的录音,让 AI 学习你的声音特点。几分钟后,你输入任意文字,AI 就会用"你的声音"念出来。

这两个能力组合起来,做视频配音、播客、有声书、广告片头都非常方便。不需要请真人配音,不需要录音棚,不需要麦克风,一段文字就能搞定。

注册流程和免费额度

注册 ElevenLabs 其实很简单,邮箱就能开账号。具体流程:

第一步:打开官网 elevenlabs.io,点右上角 Sign Up。可以用 Google 账号、GitHub 账号、或者邮箱注册。建议用 Google 账号,后面登录方便。

第二步:注册完会让你选一个使用场景,自媒体、教育、商业、随便研究都可以选。选完直接进到主界面。

第三步:进到 Speech Synthesis 页面,左边输入文字,右边选一个声音,点 Generate,30 秒内出结果。第一次用的时候,那种"原来 AI 真的能念得这么像"的感觉是非常明显的。

免费版每月给 10,000 字符额度,大概能生成 10 分钟左右的音频。听起来不多,但拿来试水完全够用。如果只是偶尔给视频配个音,10 分钟够好几个短视频用。

免费版生成的音频可以商用吗?答案是可以,但有 ElevenLabs 的水印。商用且要去水印的话,需要付费订阅。

语音克隆怎么用?

这一块是 ElevenLabs 最值钱的功能,也是付费版的真正卖点。

克隆流程:进到 Voices 页面,点 Add Voice → Instant Voice Cloning。系统会让你上传音频文件。最低要求是 1 分钟的清晰录音,建议 3-5 分钟,效果会更稳。

录音有几个小技巧:环境要安静(关窗关空调),用稍微好一点的麦克风(哪怕手机自带麦克风也行),念东西的时候保持正常语速,不要刻意放慢或者加快。念的内容可以随便,找本书念一段、读几段新闻都可以,关键是发音清晰。

上传完之后点 Add Voice,等几分钟 AI 就会学完。学完之后,你输入任何文字,它都会用你的声音念出来。可以调节 Stability(稳定性,越高越平稳但越没感情)、Clarity(清晰度)、Style Exaggeration(情绪夸张度)等参数。

我自己的体验是,第一次克隆出来的声音会有点"AI 味",多调几次参数、给 AI 喂更长的样本,效果会好很多。一个朋友用 30 分钟录音做克隆,出来的声音连他老婆都分不清是真人还是 AI。

常见的几个使用场景

短视频配音:这是用得最多的场景。以前做一个 3 分钟的解说视频,光录音就要花一两个小时;现在写好文案直接让 AI 念,5 分钟搞定,效率提升 20 倍不止。

播客:如果你是一个人做播客,没有搭档做对话,可以用 ElevenLabs 的多声音功能,把不同声部的对白念出来。也能克隆真人嘉宾的声音,让"缺席嘉宾"也参与对话。

有声书:这是 ElevenLabs 在 2025 年重点推的方向。30 万字的有声书,如果自己念可能要念一个月,AI 念大概 3-5 天就能做完初版,然后人工修一下节奏和情绪就行。

教育视频:做课程讲解、教程视频,用 AI 配音成本极低。需要换语言也方便,ElevenLabs 支持 29 种语言,英文、中文、日文、韩文都覆盖。

广告/营销:给产品做广告片头、广告语配音,同一个声音可以反复使用,不会因为配音员档期问题卡进度。

价格档位对比

ElevenLabs 的订阅分四档,2026 年的价格大致是:

Free(免费):每月 10,000 字符,可以试听所有声音,可以克隆 3 个自定义声音。带 ElevenLabs 水印。

Starter(5 美元/月):每月 30,000 字符,10 个自定义声音,去水印,商用授权。适合个人创作者。

Creator(22 美元/月):每月 100,000 字符,30 个自定义声音,专业级声音克隆(用 30 分钟样本训练,效果更好),API 调用。适合做矩阵账号的自媒体团队。

Pro(99 美元/月):每月 500,000 字符,无限自定义声音,高级 API 配额,优先客服。适合公司级使用。

如果只是个人偶尔用,Starter 档就够了。如果是做 YouTube 频道、小红书矩阵账号,Creator 档性价比最高。

国内访问:怎么稳定用上 ElevenLabs?

这是国内用户最大的痛点。ElevenLabs 的服务器在海外,国内直接打开官网很慢,登录经常失败,生成语音的时候卡到怀疑人生。

实测下来,最稳的方案是配一个翻墙节点。不用太高端的,普通 CN2 GIA 节点就够用。关键是节点要稳定,别用那种晚高峰就崩的廉价机场。

我自己用的是 JustMySocks 的洛杉矶节点,挂全局模式访问 ElevenLabs,生成一段 1 分钟的音频大概 20 秒出结果,比裸连快很多。

几个小建议:

第一,节点别选香港或者日本,距离近不代表快,ElevenLabs 的 API 入口主要在美西。洛杉矶、圣何塞这种西海岸节点最稳。

第二,浏览器建议用 Chrome 或者 Edge,不要用 Safari。Chrome 的音频处理在 ElevenLabs 上表现最稳。

第三,如果要大量生成(一次写 5000 字稿子),建议用 API 而不是网页版。API 调用更稳定,错误重试也方便。Creator 档以上才开放 API。

第四,重要项目一定要本地保存音频。ElevenLabs 历史记录会保留,但偶尔会清理。下载到本地最稳。

几个容易踩的坑

第一个坑:免费版用得爽了就大量生成,等额度用完才想起来升级。其实免费版是给你试水的,量大了果断升级,Starter 档 5 美元一个月,比请真人配音便宜太多。

第二个坑:克隆声音的时候录音环境太嘈杂。环境噪声会被 AI 当成"你声音的一部分"学进去,生成出来就会带杂音。强烈建议找个安静房间,关空调关风扇。

第三个坑:第一次用 Voice Cloning 就拿去做商业项目。建议先用免费版练手,生成几个小样听听效果,满意了再做正式项目。

第四个坑:把 AI 配音当"真人替代品"。AI 念稿子没问题,但如果有强烈情感的段落(煽情、愤怒、激动),目前还是真人念得更有感染力。最佳实践是 AI 念 80%,关键情绪段落用真人念 20%。

说在最后

AI 配音这件事,2026 年已经不是"要不要用"的问题了,是"怎么用得更稳"的问题。ElevenLabs 目前是体验最好的工具,没有之一。

如果你还在犹豫,先去官网注册一个免费账号,输几段文字感受一下。10,000 字符的额度,够你试完所有主流声音、做完一次语音克隆、生成 3-5 个短视频的旁白。觉得好用了再付费,完全没风险。

网络问题就看你自己手头的工具。没有好节点的话,可以考虑 JustMySocks 这种稳定的机场,西海岸节点对 ElevenLabs 特别友好。

有问题评论区见。