Deepseek Rilis Konsep Conditional Memory, Hemat Komputasi Via Engram

1 jam yang lalu

Telset.id – DeepSeek kembali membikin kejutan di ranah kepintaran buatan global. Menjelang libur Imlek, startup AI nan tengah naik daun ini merilis sebuah makalah penelitian (paper) terbaru nan cukup teknis namun fundamental. Dipimpin langsung oleh pendirinya, Liang Wenfeng, berbareng tim dari Universitas Peking (kelompok Zhao Dongyan dan Zhang Huishuai), DeepSeek memperkenalkan konsep “Conditional Memory” alias Memori Bersyarat.

Terobosan ini digadang-gadang sebagai “primitif pemodelan” nan tak terelakkan untuk generasi sparse model berikutnya. Inti dari riset ini adalah mengatasi kelemahan mendasar pada arsitektur Transformer nan menjadi tulang punggung AI generatif saat ini: ketidakmampuan melakukan pencarian pengetahuan (knowledge lookup) secara efisien.

Dalam paper tersebut, mereka menawarkan solusi berupa modul “Engram”. Secara sederhana, modul ini memungkinkan model bahasa besar (LLM) untuk “mengingat” info tetap tanpa kudu memprosesnya melalui lapisan komputasi nan berat. Hasil penelitian menunjukkan bahwa model dengan parameter 27B nan menggunakan Engram bisa mengungguli model Mixture-of-Experts (MoE) murni dengan ukuran nan sama, apalagi meningkatkan keahlian penalaran secara signifikan.

Masalah Utama: Membuang Komputasi untuk Hal Sepele

Tim peneliti DeepSeek memulai riset ini dengan sebuah observasi kritis terhadap langkah kerja model bahasa modern. Mereka menemukan bahwa pemodelan bahasa sebenarnya terdiri dari dua tugas nan sangat berbeda sifatnya. Pertama adalah penalaran kombinatorial nan memerlukan komputasi bergerak nan mendalam. Kedua adalah pengambilan pengetahuan tetap nan semestinya sederhana.

Masalahnya, arsitektur Transformer nan ada saat ini tidak mempunyai sistem pencarian pengetahuan bawaan. Akibatnya, ketika model perlu mengenali sebuah entitas alias kebenaran sederhana, dia kudu “membakar” sumber daya komputasi dengan melewati banyak lapisan attention dan jaringan feed-forward.

Paper tersebut memberikan contoh kasus nan sangat spesifik: frasa “Diana, Princess of Wales”. Untuk mengenali entitas ini, model konvensional memerlukan proses hingga 6 lapisan (layer). Pada lapisan-lapisan awal, model tetap “bergulat” dengan konsep-konsep parsial seperti “Wales adalah wilayah di Inggris” alias “Princess of Wales adalah gelar bangsawan”. Baru pada lapisan keenam, model sukses menyimpulkan bahwa ini merujuk pada sosok Putri Diana.

Ini adalah inefisiensi nan masif. Pada dasarnya, model menggunakan biaya komputasi runtime nan mahal hanya untuk merekonstruksi tabel pencarian statis. Kedalaman jaringan (depth) nan semestinya bisa dialokasikan untuk tugas penalaran kompleks, justru terbuang untuk pekerjaan “kasar” mengenali konsep dasar.

Engram: Kembali ke Metode N-gram Klasik

Solusi nan ditawarkan DeepSeek terdengar kontraintuitif namun brilian: kembali ke metode klasik. Mereka mengusulkan kreasi Engram nan mengangkat prinsip N-gram tradisional. Jika model N-gram jadul bisa menangkap ketergantungan lokal dengan kompleksitas waktu O(1), kenapa keahlian ini tidak ditanamkan langsung ke dalam Transformer?

Implementasinya cukup teknis namun logis. Tim menyisipkan modul Engram di antara lapisan Transformer nan sudah ada. Mekanismenya bekerja sebagai berikut:

Setiap input token bakal memicu pencarian hash.
Token saat ini dan beberapa token sebelumnya (membentuk N-gram) dipetakan ke tabel embedding raksasa.
Sistem langsung mengambil vektor nan sesuai dari tabel tersebut.

Untuk mengatasi masalah klasik seperti tabrakan hash (hash collision) dan ambiguitas makna, DeepSeek memperkenalkan sistem gating nan sadar konteks. Status tersembunyi (hidden state) saat ini bertindak sebagai Query, sementara memori nan diambil bertindak sebagai Key dan Value.

Hasilnya adalah nilai skalar antara 0 hingga 1. Jika konten nan diambil dari memori tidak cocok dengan konteks kalimat saat ini, nilai gate bakal mendekati nol. Ini secara otomatis memblokir “noise” alias info nan tidak relevan.

Visualisasi dalam paper menunjukkan langkah kerjanya dengan jelas. Jika teks menunjukkan pola tetap nan tetap (misalnya nama tokoh sejarah “Zhang Zhongjing”), modul Engram bakal aktif (berwarna gelap) dan mengambil info dari memori. Sebaliknya, jika teks berkarakter bergerak dan fleksibel, warnanya menjadi pudar, menandakan bahwa tugas tersebut diserahkan kembali ke sistem attention model.

Mengatasi Ledakan Penyimpanan Data

Mengadopsi N-gram bukan tanpa risiko. Tantangan utamanya adalah “ledakan penyimpanan” dan redundansi semantik. Kombinasi kata dalam N-gram (2 kata, 3 kata, dst.) bisa membengkak secara eksponensial. Contohnya, kosakata 128k bisa menghasilkan 128k pangkat 3 kombinasi, nan mustahil disimpan secara mentah.

DeepSeek melakukan optimasi pandai di sini:

Kompresi Tokenizer: Mereka mengelompokkan token nan mempunyai makna sama tapi corak berbeda (seperti “Apple”, “apple”, “Äpple”) menjadi satu kategori. Langkah ini memangkas ukuran kosakata efektif hingga 23%.
Hashing Ganda: Mereka menggunakan kegunaan hash untuk memetakan N-gram ke tabel embedding berukuran tetap. Tidak peduli berapa banyak kombinasi N-gram, semuanya masuk ke tabel nan ukurannya sudah dikunci (bilangan prima).
Mitigasi Konflik: Untuk mengurangi akibat tabrakan data, setiap tingkatan N-gram (misal 2-gram alias 3-gram) dilengkapi dengan K “kepala hash” (hash heads) nan berbeda. Vektor nan diambil dari beragam kepala ini kemudian digabungkan menjadi satu “vektor memori” final.

Kurva U: Menemukan Rasio Emas

Bagian paling menarik dari riset ini adalah studi sistematis mengenai “alokasi kelangkaan” (sparsity allocation). Tim DeepSeek mau mencari tahu: berapa banyak parameter nan kudu dialokasikan untuk memori (Engram) dan berapa banyak untuk pemrosesan (MoE Experts)?

Dengan mengunci total parameter dan anggaran komputasi, mereka bereksperimen dengan mengubah rasio alokasi. Hasilnya membentuk “Kurva U” nan sangat jelas. Ternyata, model MoE murni (100% parameter untuk expert) bukanlah solusi terbaik.

Titik optimal ditemukan ketika sekitar 20% hingga 25% anggaran parameter dialokasikan untuk memori Engram. Pada konfigurasi ini, loss pengesahan model mencapai titik terendah. Dalam skala model 10 miliar parameter, konfigurasi optimal ini menurunkan loss sebesar 0.0139 dibandingkan baseline MoE murni.

Temuan ini menegaskan dua hal:

Jika MoE terlalu dominan, model kekurangan memori untuk pola statis, memaksanya bekerja keras merekonstruksi kebenaran sederhana.
Jika Engram terlalu dominan, model kehilangan keahlian komputasi bersyarat untuk menangani penalaran dinamis.

Kesimpulannya tegas: Memori tidak bisa menggantikan komputasi, dan komputasi tidak efisien jika dipaksa meniru memori.

Hasil Uji Coba: Lonjakan Kemampuan Penalaran

Berbekal temuan Kurva U tersebut, tim DeepSeek melangkah ke pengetesan skala besar dengan parameter 27B. Mereka membandingkan tiga model dengan kondisi training nan identik (38 miliar parameter aktif per token, dilatih dengan 2620 miliar token):

Dense-4B: Model padat murni.
MoE-27B: Model campuran mahir murni (72 routing experts + 2 shared experts).
Engram-27B: Model hibrida (55 routing experts + 2 shared experts + 5.7B parameter memori Engram).

Hasilnya mengejutkan. Peningkatan pada tugas berbasis pengetahuan (seperti MMLU alias TriviaQA) memang sudah diprediksi. Namun, lonjakan performa justru terjadi pada kemampuan coding dan matematika.

Pada benchmark BBH, skor melonjak 5.0 poin. ARC-Challenge naik 3.7 poin, dan HumanEval (coding) naik 3.0 poin. Analisis teknis menggunakan CKA (Centered Kernel Alignment) mengungkap penyebabnya: Engram membebaskan lapisan-lapisan awal model dari tugas “kuli” mengenali fitur dasar.

Representasi lapisan ke-5 pada model Engram rupanya mirip dengan representasi lapisan ke-12 pada model MoE biasa. Artinya, Engram secara efektif “memperdalam” jaringan. Sumber daya nan dihemat dari lapisan awal ini kemudian dialokasikan otomatis oleh model untuk menangani tugas penalaran nan lebih susah di lapisan berikutnya.

Bahkan ketika parameter memori diperbesar lagi menjadi Engram-40B, performa terus menanjak, terutama pada skenario konteks panjang (Long Context). Pada tes RULER, kecermatan Multi-Query NIAH melompat dari 84.2 menjadi 97.0.

Optimasi Hardware: Memori CPU Sudah Cukup

DeepSeek juga memikirkan aspek penerapan teknis di bumi nyata. Tabel kosakata dan N-gram ini ukurannya masif, bisa mencapai 100 miliar parameter, nan mustahil dimuat dalam satu memori GPU (VRAM).

Keunggulan Engram adalah sifatnya nan deterministik. Indeks pencarian hanya berjuntai pada urutan token input, sehingga bisa dihitung di muka (pre-computed). Ini berbeda dengan routing bergerak pada MoE.

Sifat ini memungkinkan tim untuk meletakkan tabel embedding raksasa tersebut di memori CPU (RAM) biasa, bukan di VRAM GPU nan mahal. Menggunakan hubungan PCIe dan sistem prefetching asinkron, CPU bisa menyiapkan info memori untuk lapisan berikutnya saat GPU sedang sibuk memproses lapisan sebelumnya.

Eksperimen menggunakan H800 menunjukkan akibat latensi nan bisa diabaikan. Menjalankan tabel Engram 100 miliar parameter di memori CPU hanya menurunkan throughput kurang dari 3%. Strategi caching bertingkat (GPU VRAM untuk info sering akses, CPU RAM untuk menengah, dan SSD NVMe untuk jarang akses) semakin mengefisienkan sistem ini.

Dalam kesimpulannya, DeepSeek menegaskan bahwa “efisiensi sadar perangkat keras” adalah prinsip utama kreasi mereka. Dengan keahlian memisahkan penyimpanan dan komputasi, Conditional Memory diprediksi bakal menjadi standar baru. Paper ini sekaligus menjadi “spoiler” untuk model generasi berikutnya dari DeepSeek nan kabarnya bakal dirilis sebelum Imlek.

Selengkapnya