我构建第一个AI工具 - 音乐人声分离工具

Karaoke Now (Beta) 是一款 AI 工具，让你可以轻松控制任何播放器中音频的人声——就像真实的 KTV 一样，这样你既可以尽情歌唱，也可以只听伴奏，营造更放松、更专注的氛围。

这是一个示例：

Demo

如何获取 Karaoke Now (Beta)?

第一步 : 下载 zip 压缩文件或点击 Google Drive link

第二步 : 解压 Karaoke Now app 并且安装BlackHole

第三步 : 将app拖进应用文件夹，双击打开 Karaoke Now app

第四步 : 播放音乐，然后点击“Start”按键就可以开始移除人声了

暂时仅支持macOS系统。其余的系统平台会逐步推出，敬请期待...

一个星期六的晚上，我哥哥带我去了一家KTV。当我想点一首歌时，系统却把我跳转到一个第三方卡拉OK应用，并要求我额外付费——而且还是在已经支付了包厢费的基础上——因为那首歌不在他们的曲库里。

过了一周，我的妻子也想去唱歌，但在听了我上周去KTV感受后，她选择了在家里用电视播放 Spotify，边听边哼。即便没有高保真音响和点歌系统，我们也一起唱了免费的卡啦OK。

从那以后，要是能写一个在 Spotify 播放时实时开关人声的脚本就一直萦绕在我脑海里。后续的日子里，我在观察家人和朋友的习惯后，意识到，很多人都需要这样一个简单的人声去除器——无论是在家、在办公桌前，甚至是在车里。

与此同时，我也在探索像 ComfyUI 这样的生成式 AI 工具，用于图像和视频生成。这自然让我联想到：如果我能做一个属于自己的 AI 工具——但针对音频，尤其是人声去除——那会怎么样呢？

于是，我就开始研究人声音频分离的AI模型了......

主要有三个场景：

在家时，用户常会通过电视、电脑或移动设备来听音乐放松。有时，他们会想跟着唱。然而，传统的流媒体服务和本地音频播放器并不支持将人声与伴奏分离。

在家工作或学习时，用户可能会用电脑播放音乐作为背景氛围。然而，人声和歌词可能会让人分心。

开车时，用户通常会通过车载系统或手机播放音乐。就像在家一样，他们可能会想随意哼唱几句。

实时且方便地开关人声，保留伴奏。

支持桌面端，手机端，电视端和车载端等平台，满足多场景的使用。

开发过程中的一些问题和担心：

在考虑到我的目标用户和测试用户，我定义的最小可行性产品：