Published on

Model Baru Deepseek Terungkap: Tolok Ukur Pemrograman Lampaui Claude 3.5 Sonnet

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Model Deepseek-v3 yang Tak Terduga Muncul

Deepseek-v3, model yang belum diumumkan, secara tak terduga muncul dan telah menunjukkan kinerja yang sangat mengesankan. Kebocoran ini pertama kali dilaporkan oleh pengguna Reddit yang menemukan model ini tersedia melalui API dan halaman web. Model ini telah melampaui Claude 3.5 Sonnet pada tolok ukur pemrograman multibahasa Aider, dan saat ini merupakan LLM sumber terbuka terkuat di platform evaluasi LiveBench. Arsitektur model ini menggunakan struktur MoE dengan 685 miliar parameter, yang menunjukkan peningkatan signifikan dibandingkan versi sebelumnya.

Informasi Latar Belakang

Kebocoran informasi ini pertama kali terungkap oleh pengguna Reddit yang menemukan model ini tersedia di API dan halaman web. Performa Deepseek-v3 telah dievaluasi pada berbagai tolok ukur, termasuk Aider dan LiveBench. Bobot model sumber terbuka sudah tersedia di Hugging Face, meskipun kartu modelnya belum tersedia.

Detail Teknis Deepseek-V3

Arsitektur Model

  • Ukuran Parameter: 685 miliar parameter
  • Struktur MoE: Arsitektur Mixture of Experts dengan 256 ahli
  • Perutean: Menggunakan fungsi sigmoid untuk perutean, memilih 8 ahli teratas (Top-k=8)
  • Jendela Konteks: Mendukung konteks 64K, dengan default 4K dan maksimum 8K
  • Kecepatan Pembuatan Token: Sekitar 60 token per detik

Perubahan Arsitektur Kunci Dibandingkan dengan V2

  • Fungsi Gerbang: V3 menggunakan fungsi sigmoid alih-alih softmax untuk pemilihan ahli. Hal ini memungkinkan model untuk memilih dari lebih banyak ahli, berbeda dengan softmax yang cenderung memilih beberapa ahli saja.
  • Pemilihan Top-k: V3 memperkenalkan metode noaux_tc baru untuk pemilihan Top-k, yang tidak memerlukan kerugian tambahan. Ini menyederhanakan pelatihan dan meningkatkan efisiensi dengan langsung menggunakan fungsi kerugian tugas utama.
  • Penyesuaian Skor Ahli: Parameter baru, e_score_correction_bias, telah ditambahkan untuk menyesuaikan skor ahli, sehingga menghasilkan kinerja yang lebih baik selama pemilihan ahli dan pelatihan model.

Perbandingan dengan V2 dan V2.5

  • v3 vs v2: V3 pada dasarnya adalah versi yang ditingkatkan dari v2, dengan peningkatan signifikan di semua parameter.
  • v3 vs v2.5: V3 melampaui v2.5 dalam hal konfigurasi, termasuk lebih banyak ahli, ukuran lapisan perantara yang lebih besar, dan lebih banyak ahli per token.

Pengujian Pengguna dan Observasi

Pengujian Awal

Simon Willison, seorang pengembang, menguji Deepseek-v3 dan menemukan bahwa model tersebut mengidentifikasi dirinya berbasis arsitektur GPT-4 OpenAI. Model ini juga diuji untuk pembuatan gambar, menciptakan gambar SVG seekor pelikan yang mengendarai sepeda.

Identifikasi Diri yang Tak Terduga

Beberapa pengguna melaporkan bahwa Deepseek-v3 mengidentifikasi dirinya berbasis model OpenAI, kemungkinan karena penggunaan respons model OpenAI selama pelatihan.

Reaksi Komunitas

Rilis tak terduga dan kinerja kuat Deepseek-v3 telah membangkitkan antusiasme di komunitas. Beberapa pengguna percaya bahwa kinerja Deepseek-v3 melampaui model OpenAI, terutama dalam domain sumber terbuka.

Sumber Daya Tambahan