Telset.id – Pernahkah Anda bertanya pada chatbot AI dan mendapatkan jawaban nan terdengar meyakinkan, tapi rupanya salah besar? Itulah nan disebut “halusinasi AI”—fenomena di mana model bahasa besar (LLM) menghasilkan info nan tidak jeli alias sama sekali fiktif. OpenAI, salah satu pelopor di bagian kepintaran buatan, sekarang menyatakan telah menemukan akar masalahnya dan sedang mengembangkan solusi nan dapat membikin AI lebih dapat dipercaya.
Masalah fatamorgana bukanlah perihal sepele. Bayangkan Anda menggunakan AI untuk riset akademis, dan dia memberikan quote dari jurnal nan tidak pernah ada. Atau saat meminta rekomendasi produk, AI menyebut fitur nan sebenarnya tidak dimiliki. Ini bukan hanya mengganggu, tetapi juga berpotensi merugikan. OpenAI, melalui penelitian kolaboratif dengan Georgia Tech, telah menerbitkan makalah sepanjang 36 laman nan mengupas tuntas kenapa perihal ini terjadi—dan nan mengejutkan, kesalahannya mungkin bukan pada kreasi model, melainkan pada langkah kita mengujinya.

Menurut penelitian tersebut, sistem penilaian (benchmark) nan digunakan saat ini justru memicu AI untuk “berbohong”. Sebagian besar tes dirancang untuk menghukum model nan menjawab “Saya tidak tahu” alias menolak pertanyaan, sementara memberi reward pada model nan berani menjawab—bahkan jika jawabannya salah. Analoginya seperti ujian pilihan dobel di sekolah: lebih baik menebak daripada tidak menjawab sama sekali. Akibatnya, AI condong memproduksi jawaban dengan kepercayaan tinggi, meskipun faktanya dia tidak yakin.
OpenAI dan tim peneliti, termasuk Santosh Vempala dari Georgia Tech, mengusulkan perubahan radikal dalam metodologi evaluasi. Alih-alih menghargai jumlah jawaban, sistem semestinya lebih menghargai kejujuran dan kehati-hatian. Misalnya, jawaban nan “percaya diri tetapi salah” kudu diberi penalti besar, sementara pengakuan ketidaktahuan alias respons nan hati-hati justru diberi nilai positif.
Contoh nyata dari paper tersebut menunjukkan perbedaan mencolok. Satu model nan hati-hati hanya menjawab 50% pertanyaan, tetapi akurasinya mencapai 74%. Sebaliknya, model lain nan menjawab nyaris semua pertanyaan justru berhalusinasi pada tiga dari empat kesempatan. Artinya, kepercayaan buta pada AI nan selalu siap menjawab justru berisiko tinggi.
Jika pendekatan ini diadopsi secara luas, perilaku asisten AI sehari-hari bisa berubah drastis. Daripada dengan percaya menyebut statistik tiruan alias merujuk sumber fiktif—seperti nan terjadi pada kasus restoran di Montana nan memprotes Google AI lantaran memberikan info menu nan salah—AI bakal lebih sering mengakui batas pengetahuannya. Mungkin terdengar kurang “pintar”, tetapi ini justru langkah maju menuju transparansi dan keandalan.
Bagi pengguna, ini berfaedah lebih sedikit waktu nan dihabiskan untuk memverifikasi setiap klaim AI. Bagi developer dan peneliti, ini adalah pengingat bahwa kepintaran buatan bukan hanya tentang kecepatan alias keluwesan bahasa, tetapi juga integritas informasi. Bahkan rumor kepercayaan terhadap AI ini telah memicu kekhawatiran mendalam, seperti nan tercermin dalam keputusan seorang mantan mahasiswa MIT nan memilih keluar lantaran cemas AI dapat menakut-nakuti manusia.
OpenAI bukan satu-satunya nan bergulat dengan tantangan ini. Persaingan dalam pengembangan AI semakin ketat, termasuk dengan kehadiran Grok xAI nan baru saja disetujui pemerintah AS. Namun, pendekatan berbasis kejujuran ini bisa menjadi standar baru dalam industri—terutama jika OpenAI sukses mengintegrasikannya ke dalam model generasi berikutnya seperti GPT-5.
Jadi, lain kali Anda berinteraksi dengan chatbot dan dia menjawab “Saya tidak yakin” alias “Saya belum mempelajari itu”, jangan langsung menganggapnya kurang canggih. Bisa jadi, itulah AI nan lebih pandai dan bertanggung jawab—AI nan lebih peduli pada kebenaran daripada tampilan percaya diri.