top of page

我构建第一个AI工具 - 音乐人声分离工具

  • 作家相片: jacketzkt
    jacketzkt
  • 4天前
  • 讀畢需時 3 分鐘
Karaoke Now (Beta)
Karaoke Now (Beta)

Karaoke Now (Beta) 是一款 AI 工具,让你可以轻松控制任何播放器中音频的人声——就像真实的 KTV 一样,这样你既可以尽情歌唱,也可以只听伴奏,营造更放松、更专注的氛围。


这是一个示例:

Demo


如何获取 Karaoke Now (Beta)?


第一步 : 下载 zip 压缩文件 或 点击 Google Drive link

第二步 : 解压 Karaoke Now app 并且安装BlackHole

第三步 : 将app拖进应用文件夹,双击打开 Karaoke Now app

第四步 : 播放音乐,然后点击“Start”按键就可以开始移除人声了


暂时仅支持macOS系统。其余的系统平台会逐步推出,敬请期待...





故事是这样开始的...


一个星期六的晚上,我哥哥带我去了一家KTV。 当我想点一首歌时,系统却把我跳转到一个第三方卡拉OK应用,并要求我额外付费——而且还是在已经支付了包厢费的基础上——因为那首歌不在他们的曲库里。


过了一周,我的妻子也想去唱歌,但在听了我上周去KTV感受后,她选择了在家里用电视播放 Spotify,边听边哼。即便没有高保真音响和点歌系统,我们也一起唱了免费的卡啦OK。


从那以后,要是能写一个在 Spotify 播放时实时开关人声的脚本就一直萦绕在我脑海里。后续的日子里,我在观察家人和朋友的习惯后,意识到,很多人都需要这样一个简单的人声去除器——无论是在家、在办公桌前,甚至是在车里。


与此同时,我也在探索像 ComfyUI 这样的生成式 AI 工具,用于图像和视频生成。这自然让我联想到:如果我能做一个属于自己的 AI 工具——但针对音频,尤其是人声去除——那会怎么样呢?


于是,我就开始研究人声音频分离的AI模型了......



场景


主要有三个场景:

家庭娱乐休闲
家庭娱乐休闲
居家办公/学习
居家办公/学习
开车时听歌哼唱
开车时听歌哼唱
  1. 家庭娱乐休闲

在家时,用户常会通过电视、电脑或移动设备来听音乐放松。有时,他们会想跟着唱。然而,传统的流媒体服务和本地音频播放器并不支持将人声与伴奏分离。


  1. 居家办公/学习

在家工作或学习时,用户可能会用电脑播放音乐作为背景氛围。然而,人声和歌词可能会让人分心。


  1. 开车听歌

开车时,用户通常会通过车载系统或手机播放音乐。就像在家一样,他们可能会想随意哼唱几句。





需求



快速控制人声

实时且方便地开关人声,保留伴奏。

 

多平台支持

支持桌面端,手机端,电视端和车载端等平台,满足多场景的使用。





最小可行性产品


开发过程中的一些问题和担心:

  1. 这款工具需要嵌入各个音乐播放器或者以独立app的形式,通过虚拟音频端口来捕捉音乐再输出到物理音响端口。

  2. 音频的处理需要实时且低延迟来达到流畅的用户体验。那么,这款工具需要在本地部署小型的AI模型。

  3. 法律合规存在音乐版权相关的潜在风险。


在考虑到我的目标用户和测试用户,我定义的最小可行性产品:

  • 独立的macOS桌面端app,开箱即用,可以配合所有的音乐播放器和流媒体。

  • 与开源BlackHole虚拟音频端口绑定。

  • 精简的macOS用户界面,有且仅有开始键、暂停键和一些音频输入输出状态信息。

 
 
Zhou Ketuo
  • LinkedIn
  • Instagram
  • Whatsapp
  • wechat icon

jacket.zkt@gmail.com
+86-13336618830
Lim Tua Tow Rd, Singapore

© Zhou Ketuo 2025

bottom of page