我构建第一个AI工具 - 音乐人声分离工具
- jacketzkt
- 4天前
- 讀畢需時 3 分鐘

Karaoke Now (Beta) 是一款 AI 工具,让你可以轻松控制任何播放器中音频的人声——就像真实的 KTV 一样,这样你既可以尽情歌唱,也可以只听伴奏,营造更放松、更专注的氛围。
这是一个示例:
如何获取 Karaoke Now (Beta)?
第一步 : 下载 zip 压缩文件 或 点击 Google Drive link
第二步 : 解压 Karaoke Now app 并且安装BlackHole
第三步 : 将app拖进应用文件夹,双击打开 Karaoke Now app
第四步 : 播放音乐,然后点击“Start”按键就可以开始移除人声了
暂时仅支持macOS系统。其余的系统平台会逐步推出,敬请期待...
故事是这样开始的...
一个星期六的晚上,我哥哥带我去了一家KTV。 当我想点一首歌时,系统却把我跳转到一个第三方卡拉OK应用,并要求我额外付费——而且还是在已经支付了包厢费的基础上——因为那首歌不在他们的曲库里。
过了一周,我的妻子也想去唱歌,但在听了我上周去KTV感受后,她选择了在家里用电视播放 Spotify,边听边哼。即便没有高保真音响和点歌系统,我们也一起唱了免费的卡啦OK。
从那以后,要是能写一个在 Spotify 播放时实时开关人声的脚本就一直萦绕在我脑海里。后续的日子里,我在观察家人和朋友的习惯后,意识到,很多人都需要这样一个简单的人声去除器——无论是在家、在办公桌前,甚至是在车里。
与此同时,我也在探索像 ComfyUI 这样的生成式 AI 工具,用于图像和视频生成。这自然让我联想到:如果我能做一个属于自己的 AI 工具——但针对音频,尤其是人声去除——那会怎么样呢?
于是,我就开始研究人声音频分离的AI模型了......
场景
主要有三个场景:



家庭娱乐休闲
在家时,用户常会通过电视、电脑或移动设备来听音乐放松。有时,他们会想跟着唱。然而,传统的流媒体服务和本地音频播放器并不支持将人声与伴奏分离。
居家办公/学习
在家工作或学习时,用户可能会用电脑播放音乐作为背景氛围。然而,人声和歌词可能会让人分心。
开车听歌
开车时,用户通常会通过车载系统或手机播放音乐。就像在家一样,他们可能会想随意哼唱几句。
需求
快速控制人声
实时且方便地开关人声,保留伴奏。
多平台支持
支持桌面端,手机端,电视端和车载端等平台,满足多场景的使用。
最小可行性产品
开发过程中的一些问题和担心:
这款工具需要嵌入各个音乐播放器或者以独立app的形式,通过虚拟音频端口来捕捉音乐再输出到物理音响端口。
音频的处理需要实时且低延迟来达到流畅的用户体验。那么,这款工具需要在本地部署小型的AI模型。
法律合规存在音乐版权相关的潜在风险。
在考虑到我的目标用户和测试用户,我定义的最小可行性产品:
独立的macOS桌面端app,开箱即用,可以配合所有的音乐播放器和流媒体。
与开源BlackHole虚拟音频端口绑定。
精简的macOS用户界面,有且仅有开始键、暂停键和一些音频输入输出状态信息。