Baru saja melihat Simon menguji secara langsung di Mac model open-source terbaru dari Microsoft, VibeVoice-ASR, model ini cukup menarik.


9B parameter, memproses audio kontinu selama 60 menit sekaligus, dan juga dapat mengeluarkan siapa yang berbicara, kapan berbicara, dan apa yang dikatakan.
Solusi tradisional harus menggabungkan Whisper+pyannote, sekarang satu model saja sudah cukup, mendukung lebih dari 50 bahasa dan campuran bahasa Inggris dan Mandarin.
Dia menggunakan versi kuantisasi 4-bit (5,71GB) untuk memproses podcast selama 1 jam di M5 Max, memakan waktu 8 menit 45 detik, puncak penggunaan memori 61,5GB, laptop biasa dengan RAM 32GB tidak mampu menjalankan.
Yang menarik, model ini mengenali percakapan dua orang sebagai tiga orang karena Lenny berbicara dalam lingkungan rekaman yang berbeda.
Jalankan secara lokal minimal membutuhkan 64GB RAM, untuk transkripsi podcast dan notulen rapat, proses multi-langkah sekarang bisa dipadatkan menjadi satu inferensi saja.

Menurut kalian, bagaimana pendapat tentang model ini?
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan