Rilis ChatGPT Kesehatan setelah 6 hari, OpenAI tertinggal di Benchmark kesehatan medis mereka sendiri

Penulis: Li Yuan

Apakah Anda pernah bertanya kepada asisten AI tentang masalah kesehatan Anda?

Jika Anda seperti saya adalah pengguna AI yang mendalam, besar kemungkinan Anda juga pernah mencobanya.

Data yang diberikan oleh OpenAI sendiri menunjukkan bahwa kesehatan telah menjadi salah satu skenario penggunaan ChatGPT yang paling umum, dengan lebih dari 2.3 miliar orang di seluruh dunia setiap minggu mengajukan pertanyaan terkait kesehatan dan perawatan.

Karena itulah, memasuki tahun 2026, bidang kesehatan menunjukkan tanda-tanda akan menjadi salah satu bidang yang wajib diperjuangkan dalam AI.

Pada 7 Januari, OpenAI merilis ChatGPT Health, yang memungkinkan pengguna menghubungkan catatan medis elektronik dan berbagai aplikasi kesehatan, sehingga pengguna dapat memperoleh balasan medis yang lebih spesifik; sementara pada 12 Januari, Anthropic langsung meluncurkan Claude for Healthcare, dan menekankan kemampuan model baru ini dalam skenario medis.

Namun yang menarik, kali ini, perusahaan China tidak ketinggalan, bahkan menunjukkan keunggulan yang besar.

Pada 13 Januari, Baichuan Intelligence mengumumkan peluncuran model Baichuan M3, yang dalam evaluasi HealthBench di bidang kesehatan dan perawatan yang dirilis oleh OpenAI, berhasil mengungguli GPT-5.2 High dari OpenAI, meraih SOTA.

Setelah pengumuman bahwa semua dalam bidang medis adalah kompetisi yang sangat dipertanyakan, Baichuan Intelligence tampaknya akhirnya membuktikan dirinya sendiri. Geek Park juga secara khusus berbincang dengan Wang Xiaochuan tentang bagaimana Baichuan Intelligence memandang kemampuan model M3 ini, serta akhir dari AI dalam bidang medis.

01 Pertama kali mengungguli OpenAI dalam evaluasi bidang kesehatan

Salah satu pencapaian paling menonjol dari model M3 yang dirilis ini adalah, untuk pertama kalinya, model ini mengungguli GPT-5.2 High dari OpenAI dalam evaluasi HealthBench yang dirilis oleh OpenAI, dan meraih SOTA.

SOTA di HealthBench, Hard dan Hallucination Evaluation

HealthBench adalah kumpulan evaluasi bidang medis dan kesehatan yang dirilis oleh OpenAI pada Mei 2025, yang dikembangkan bersama oleh 262 dokter dari 60 negara, berisi 5000 rangkaian dialog medis yang sangat realistis dan berulang, dan merupakan salah satu dari kumpulan evaluasi medis paling otoritatif dan paling mendekati skenario klinis nyata di seluruh dunia saat ini.

Setelah dirilis, model dari OpenAI terus mendominasi peringkat.

Namun kali ini, model generasi baru open-source Baichuan-M3 dari Baichuan Intelligence meraih skor total 65.1, menempati posisi pertama di dunia, bahkan di HealthBench Hard yang menguji kemampuan pengambilan keputusan kompleks, M3 juga berhasil meraih juara, memecahkan rekor tertinggi.

Baichuan juga secara bersamaan mengumumkan hasil pengujian tingkat halusinasi, di mana tingkat halusinasi model M3 mencapai 3.5%, yang merupakan yang terendah di dunia.

Perlu dicatat bahwa tingkat halusinasi ini adalah tingkat halusinasi medis yang tidak bergantung pada alat pencarian eksternal, murni dari pengaturan model.

Baichuan Intelligence menyatakan, pencapaian ini berkat peningkatan model yang mengadopsi algoritma reinforcement learning yang sesuai untuk bidang medis.

Pada model M3, Baichuan pertama kali menggunakan teknologi Fact Aware RL (Reinforcement Learning Berbasis Fakta), yang membuat model tidak mengulang-ulang kalimat yang tidak perlu dan tidak berbicara sembarangan.

Ini sangat penting dalam bidang medis.

Dalam model tanpa optimasi, pertanyaan medis paling rentan menimbulkan dua masalah: pertama, model secara langsung mengarang gejala Anda dan mengira-ngira penyakit; kedua, semantik menjadi kabur, dan akhirnya menyarankan Anda untuk berkonsultasi ke dokter, yang bagi dokter maupun pasien, tidak banyak membantu.

Ini karena banyak model mengoptimalkan hanya berdasarkan tingkat halusinasi, sehingga mereka mungkin menumpuk fakta yang benar dan sederhana untuk mengurangi tingkat halusinasi secara keseluruhan. Baichuan memperkenalkan mekanisme clustering dan pemberian bobot penting, yang mengelompokkan dan menghilangkan redundansi, serta memastikan penekanan pada kesimpulan medis utama.

Selain itu, jika hanya mengandalkan penalti halusinasi dengan bobot tinggi, model cenderung mengadopsi strategi konservatif “sedikit bicara, sedikit salah”, sehingga algoritma Fact Aware RL juga dirancang dengan mekanisme penyesuaian bobot dinamis, yang secara adaptif menyeimbangkan kedua tujuan ini sesuai kemampuan model—pada tahap pembangunan kemampuan, fokus pada pembelajaran dan ekspresi pengetahuan medis (Bobot Tugas Tinggi); setelah kemampuan matang, secara bertahap memperketat batasan faktual (meningkatkan Bobot Halusinasi).

Ketika koneksi internet tersedia, Baichuan juga menambahkan modul verifikasi online berbasis pencarian multi-putaran, serta sistem cache yang efisien untuk menyelaraskan pengetahuan medis dalam jumlah besar.

02 Tingkat konsultasi melebihi dokter manusia, memasuki tahap usable

Namun, mengungguli OpenAI di HealthBench bukan satu-satunya poin menarik dari peluncuran ini.

Hal yang lebih menarik adalah, Baichuan secara kreatif membangun kumpulan evaluasi SCAN-benche. Dibandingkan dengan sekadar memecahkan rekor di kumpulan evaluasi OpenAI, kumpulan evaluasi yang dibangun sendiri oleh Baichuan mungkin lebih menunjukkan arah yang ingin dioptimalkan oleh Baichuan Intelligence dalam bidang medis.

Kumpulan evaluasi yang dibangun ini berfokus pada peningkatan “kemampuan konsultasi end-to-end”. Berdasarkan wawasan eksperimen Baichuan sendiri: setiap peningkatan 2% dalam akurasi konsultasi, akan meningkatkan akurasi hasil diagnosis dan pengobatan sebesar 1%.

Dengan kata lain, dibandingkan dengan HealthBench dari OpenAI yang lebih fokus pada “AI mampu menjawab pertanyaan”, SCAN-benche dari Baichuan ingin menguji: apakah AI mampu memperoleh informasi yang efektif dalam satu tanya jawab, sekaligus memberikan hasil diagnosis dan saran medis yang benar.

Biasanya, saat kita bertanya kepada asisten AI, jika hanya menyebutkan “Anda adalah dokter berpengalaman”, hasilnya biasanya tidak terlalu optimal. Karena dokter sejati mengikuti proses konsultasi yang sangat terstruktur—Baichuan merangkum ini dalam empat kuadran prinsip SCAN: Safety Stratification (Pengelompokan Keamanan), Clarity Matters (Kejelasan Informasi), Association & Inquiry (Kaitan & Pertanyaan Lanjutan), dan Normative Protocol (Protokol Normatif).

Berkaitan dengan prinsip SCAN, Baichuan mengadopsi metode OSCE yang sudah lama digunakan dalam pendidikan kedokteran, bekerja sama dengan lebih dari 150 dokter garis depan, membangun sistem evaluasi SCAN-bench, yang memecah proses diagnosis menjadi tiga tahap utama: pengumpulan riwayat penyakit, pemeriksaan pendukung, dan diagnosis tepat, melalui penilaian dinamis dan berulang, mensimulasikan proses lengkap dari penerimaan pasien hingga diagnosis, dan mengoptimalkan model berdasarkan hasil yang diperoleh di ketiga proses ini.

Baichuan juga mengumumkan hasil evaluasi model M3 di SCAN-benche.

Hasilnya sangat menarik. Baichuan tidak hanya membandingkan model dengan manusia, tetapi juga melibatkan dokter nyata untuk perbandingan. Dalam keempat kuadran, dokter nyata sebenarnya sudah tertinggal dari tingkat yang bisa dicapai model.

Geek Park secara khusus bertanya kepada tim Baichuan, dan jawaban mereka adalah: evaluasi ini dilakukan oleh dokter spesialis nyata dalam kasus spesialis, dan model mampu menang karena, pertama, model lebih sabar, tetapi yang lebih penting, model memiliki kemampuan penguasaan pengetahuan lintas disiplin yang lebih baik.

Misalnya, dalam satu kasus, disebutkan anak berusia 10 tahun yang demam berulang, dan demam adalah fenomena medis yang sangat kompleks. Jika hanya menanyakan batuk dan kondisi paru-paru, bisa saja mengabaikan masalah serius di sendi dan sistem kemih, dan salah menilai sebagai infeksi biasa.

Dokter manusia biasanya hanya mahir dalam kondisi yang terbagi secara spesialis, dan ini adalah alasan mengapa gejala kompleks sering membutuhkan konsultasi ahli, atau ahli penyakit sulit yang harus mencari referensi di buku.

Tanpa pelatihan khusus, model biasa yang hanya berperan sebagai dokter sering kali sulit menjawab pertanyaan semacam ini dengan baik.

03 Langkah selanjutnya: secara bertahap mulai mengembangkan produk C-end, mendorong pengembangan medis yang lebih serius

Bagi Baichuan Intelligence, pencapaian mengungguli dokter manusia ini sangat penting: ini berarti AI mulai melewati ambang batas kegunaan, dan mulai dapat diterapkan dalam skenario nyata.

Sejak 13 Januari, pengguna sudah dapat merasakan jawaban dari model M3 melalui situs dan aplikasi BaixiaoYing.

Desain situs saat ini sangat menarik, meskipun semua menggunakan model M3 untuk menjawab, tetapi dibedakan antara versi dokter dan versi pengguna. Pada versi dokter, jawaban lebih ringkas, mengutip lebih banyak referensi, dan lebih “tidak berbicara manusiawi”. Sedangkan pada versi pasien biasa, model hampir tidak memberikan jawaban sekaligus, melainkan melakukan lebih banyak pertanyaan lanjutan dan diagnosis yang lebih jelas.

Baichuan Intelligence menyebutkan, proses berpikir model di belakang sangat menarik. “Seringkali kita melihat model ini menyebutkan dalam rantai pikirannya, ‘Pasien ini tidak memahami pertanyaan saya, tetapi saya harus menanyakan ini.’ Bahkan, kita pernah melihat yang ekstrem, mengatakan bahwa saya sudah bertanya 20 putaran kepada pasien, ini sudah melebihi jumlah putaran maksimum yang ditetapkan, tetapi saya tetap harus menanyakan ini. Ini karena selama pelatihan, model belajar untuk berbicara secara halus, dan tidak akan mendapatkan penghargaan jika tidak. Ia harus mendapatkan cukup informasi penting dan diagnosis yang benar agar mendapatkan reward. Ini adalah perbedaan mencolok dari pelatihan model oleh orang lain.”

Akhir-akhir ini, banyak perusahaan AI mulai masuk ke bidang medis. Ini juga menjadi salah satu keunggulan utama Baichuan Intelligence—ingin melakukan pengembangan medis yang lebih serius.

“Ini berarti Baichuan tidak memilih skenario berdasarkan mana yang paling mudah, tetapi berusaha terus meningkatkan kemampuan teknologi dan menantang masalah yang lebih sulit,” kata Wang Xiaochuan.

Contoh khasnya, di masa depan Baichuan akan memprioritaskan pengembangan skenario spesialis tumor, sementara terapi psikologis berada di prioritas yang lebih rendah.

Dalam pandangan umum, banyak yang menganggap bahwa AI untuk terapi psikologis lebih sederhana dan lebih mudah diimplementasikan. Namun, logika penilaian Baichuan berbeda. Mereka percaya bahwa bidang tumor memiliki dasar ilmiah yang lebih ketat. Di sini, AI lebih berpotensi menghasilkan hasil medis yang serius dan mencapai atau bahkan melampaui tingkat dokter manusia. Sebaliknya, bidang psikologi kurang memiliki jangkar ilmiah yang pasti.

Contohnya lagi, beberapa perusahaan memilih membuat avatar dokter, tetapi Wang Xiaochuan berpendapat bahwa arah ini bukan yang ingin dilakukan Baichuan. Avatar dokter sendiri tidak bisa sepenuhnya menggantikan tingkat dokter asli, apalagi melampauinya. AI seperti ini akhirnya hanya akan menjadi kedok dan alat akuisisi pelanggan, dan tidak benar-benar mendorong pengembangan medis yang serius.

Tekad terhadap keseriusan ini sangat memengaruhi banyak keputusan bisnis Baichuan.

Ini juga berkaitan langsung dengan pemikiran Wang Xiaochuan tentang masalah mendasar tahap berikutnya dalam AI medis. Ia percaya, tugas terpenting saat ini adalah meningkatkan kemampuan AI dan secara bertahap menyediakan lebih banyak layanan medis.

China selama bertahun-tahun mencoba menerapkan sistem rujukan berjenjang dan dokter umum. Tujuannya agar masyarakat pertama-tama berobat di tingkat dasar, mengatasi masalah sulitnya mendapatkan janji di rumah sakit besar, antre panjang, dan kemacetan.

Kesulitan dalam menerapkan sistem ini secara fundamental disebabkan oleh kekurangan sumber daya medis. Fasilitas medis tingkat dasar kekurangan dokter berkualitas tinggi. Bahkan orang yang hanya mengalami flu pun bersedia antre di rumah sakit tingkat tiga karena tidak percaya dengan tingkat layanan di tingkat dasar.

Ini adalah titik kunci di mana AI medis dapat berperan. Model besar mampu mendistribusikan pengetahuan medis terbaik secara skala besar. Ia mengisi kekurangan pasokan di tingkat dasar, sehingga setiap komunitas dan keluarga dapat memiliki kemampuan diagnosis dan pengobatan seperti dokter spesialis rumah sakit tingkat tiga.

Dalam jangka panjang, ini juga akan memiliki pengaruh yang lebih luas, mungkin akan mengalihkan kekuasaan pengambilan keputusan medis dari dokter ke pengguna. Dalam skenario medis tradisional, pasien adalah penerima manfaat, tetapi sering kali tidak memiliki kekuasaan pengambilan keputusan. Kekuasaan ini terkonsentrasi pada dokter, dan ketidakseimbangan kekuasaan ini sering menyebabkan biaya komunikasi dan penderitaan selama pengobatan.

Baichuan berharap melalui AI, pasien dapat lebih mudah mengakses sumber daya medis berkualitas tinggi. “Banyak orang merasa bahwa medis terlalu rumit, pasien tidak akan pernah memahaminya. Tapi yang kami pikirkan adalah sistem juri di sistem peradilan di Amerika, di mana orang biasa yang tidak mengerti hukum harus dipimpin oleh hakim, pengacara, dan jaksa, melakukan debat yang cukup, menjelaskan semuanya dengan jelas, sehingga orang biasa bisa menilai apakah bersalah atau tidak berdasarkan logika. Orang biasa cukup menilai berdasarkan logika,” kata Wang Xiaochuan.

Ini juga salah satu alasan mengapa Baichuan Intelligence tidak ingin hanya fokus pada skenario sederhana, tetapi terus mendorong pengembangan diagnosis serius yang lebih kompleks.

Ketika ditanya apakah menyelesaikan masalah tingkat tinggi ini paling menguntungkan secara bisnis, Wang Xiaochuan memberikan jawaban yang mendalam.

Ia percaya, menyelesaikan masalah kecil seperti flu dan demam sulit membangun kepercayaan yang cukup dari pengguna. Medis adalah industri yang sangat bergantung pada kepercayaan. Hanya ketika AI mampu menyelesaikan masalah serius dan kompleks, barulah kepercayaan ini dapat benar-benar terbangun.

Dari sudut pandang bisnis, saat pasien menghadapi masalah kesehatan serius, mereka juga lebih bersedia membayar untuk layanan AI berkualitas tinggi. Kepercayaan ini bukan hanya prasyarat keuntungan bisnis, tetapi juga inti dari skala penerapan AI medis.

Secara lebih mendasar, medis bagi Baichuan Intelligence dan Wang Xiaochuan sendiri tetap merupakan jalur menuju kecerdasan buatan umum (AGI).

Wang Xiaochuan percaya bahwa AI saat ini telah menemukan solusi nyata di bidang humaniora, sains, teknik, dan seni, tetapi bidang medis adalah bidang yang sangat unik. Eksplorasi manusia terhadap kedokteran belum selesai, dan AI juga masih dalam tahap penjelajahan di bidang ini.

Peta jalan Baichuan sangat jelas. Pertama, meningkatkan efisiensi diagnosis dengan AI, mengatasi kekurangan pasokan layanan medis saat ini. Berdasarkan fondasi ini, Baichuan berkomitmen membangun kepercayaan mendalam dengan pasien. Ketika pasien bersedia menggunakan alat AI untuk konsultasi medis jangka panjang, AI dapat mengumpulkan data medis yang nyata dan berkualitas tinggi selama pendampingan jangka panjang.

Data ini pada akhirnya bertujuan membangun model matematika kehidupan. Ini adalah jalan yang belum sepenuhnya ditempuh oleh dokter manusia, dan di masa depan sangat mungkin akan dicapai terlebih dahulu oleh AI. Jika mampu memodelkan hakikat kehidupan, ini akan menjadi langkah kunci dalam mendorong kemajuan menuju kecerdasan buatan umum yang lebih tinggi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)