刚看到Simon在Mac上实测了微软新开源的VibeVoice-ASR,这模型有点东西啊。


9B参数,单次处理60分钟连续音频,还能输出谁在说、什么时候说、说了什么。
传统方案要拼Whisper+pyannote,现在一个模型全搞定,支持50多种语言和中英混说。
他用4-bit量化版(5.71GB)在M5 Max上转1小时播客用了8分45秒,内存峰值61.5GB,普通32GB笔记本跑不动。
有趣的是,模型把两人对谈识别成三人,因为Lenny在不同录音环境说话。
本地跑至少要64GB内存,对播客转写、会议纪要来说,多步流程现在能压缩成一次推理了。

你们觉得这模型怎么样?
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论