Published on

Model Baharu Deepseek Dibongkar: Penanda Aras Pengaturcaraan Melebihi Claude 3.5 Sonnet

Pengarang
  • avatar
    Nama
    Ajax
    Twitter

Model Deepseek-v3 yang Tidak Dijangka Muncul

Model Deepseek-v3, yang tidak diumumkan sebelum ini, telah bocor dan mula menunjukkan prestasi yang sangat mengagumkan. Kebocoran ini telah mencetuskan perbincangan hangat dalam komuniti teknologi, terutamanya kerana model ini menunjukkan keupayaan yang luar biasa dalam bidang pengaturcaraan.

Prestasi Melebihi Claude 3.5 Sonnet

Satu pencapaian yang paling menonjol ialah Deepseek-v3 telah berjaya mengatasi Claude 3.5 Sonnet dalam penanda aras pengaturcaraan berbilang bahasa Aider. Ini menunjukkan bahawa Deepseek-v3 mempunyai keupayaan yang lebih tinggi dalam memahami dan menjana kod berbanding model-model lain yang sedia ada.

LLM Sumber Terbuka Terkuat di LiveBench

Selain itu, Deepseek-v3 kini diiktiraf sebagai model bahasa besar (LLM) sumber terbuka terkuat di platform penilaian LiveBench. Pengiktirafan ini mengukuhkan lagi kedudukan Deepseek-v3 sebagai pesaing utama dalam arena kecerdasan buatan (AI).

Seni Bina MoE 685B Parameter

Salah satu faktor yang menyumbang kepada prestasi tinggi Deepseek-v3 ialah seni bina Mixture of Experts (MoE) yang terdiri daripada 685 bilion parameter. Struktur ini membolehkan model memproses dan menganalisis data dengan lebih cekap dan berkesan. Peningkatan ini adalah signifikan berbanding dengan versi-versi Deepseek sebelumnya.

Latar Belakang Kebocoran

Kebocoran model ini pertama kali dilaporkan oleh pengguna Reddit, yang menemui model tersebut tersedia melalui API dan halaman web. Keadaan ini menunjukkan bahawa model ini telah diakses di luar saluran yang sepatutnya.

Penilaian Prestasi

Prestasi Deepseek-v3 telah dinilai menggunakan pelbagai penanda aras, termasuk Aider dan LiveBench. Penilaian ini penting untuk mengukur keupayaan model dalam pelbagai tugas dan senario.

Ketersediaan Sumber Terbuka di Hugging Face

Walaupun kad model belum tersedia, berat sumber terbuka Deepseek-v3 sudah boleh didapati di Hugging Face. Ini memudahkan para penyelidik dan pembangun untuk mengakses dan menggunakan model ini.

Butiran Teknikal Deepseek-v3

Seni Bina Model

  • Saiz Parameter: 685 bilion parameter
  • Struktur MoE: Seni bina Mixture of Experts dengan 256 pakar
  • Penghalaan: Menggunakan fungsi sigmoid untuk penghalaan, memilih 8 pakar teratas (Top-k=8)
  • Tetingkap Konteks: Menyokong konteks 64K, dengan lalai 4K dan maksimum 8K
  • Kelajuan Penjanaan Token: Lebih kurang 60 token sesaat

Perubahan Seni Bina Utama Berbanding V2

  • Fungsi Pintu: v3 menggunakan fungsi sigmoid dan bukannya softmax untuk pemilihan pakar. Ini membolehkan model memilih daripada set pakar yang lebih besar.
  • Pemilihan Top-k: v3 memperkenalkan kaedah noaux_tc baharu untuk pemilihan Top-k, yang tidak memerlukan kerugian tambahan. Ini memudahkan latihan dan meningkatkan kecekapan.
  • Pelarasan Skor Pakar: Parameter baharu, e_score_correction_bias, telah ditambah untuk melaraskan skor pakar, meningkatkan prestasi semasa pemilihan pakar dan latihan model.

Perbandingan Dengan V2 dan V2.5

  • v3 vs v2: v3 pada dasarnya ialah versi yang dipertingkatkan daripada v2, dengan peningkatan ketara dalam semua parameter.
  • v3 vs v2.5: v3 mengatasi v2.5 dari segi konfigurasi, termasuk lebih banyak pakar, saiz lapisan perantaraan yang lebih besar, dan lebih banyak pakar setiap token.

Ujian Pengguna dan Pemerhatian

Ujian Awal

Seorang pembangun, Simon Willison, menguji Deepseek-v3 dan mendapati bahawa ia mengenal pasti dirinya sebagai berasaskan seni bina GPT-4 OpenAI.

Model itu juga diuji untuk penjanaan imej, menghasilkan imej SVG seekor burung pelikan menaiki basikal.

Pengenalpastian Diri yang Tidak Dijangka

Beberapa pengguna melaporkan bahawa Deepseek-v3 mengenal pasti dirinya sebagai berasaskan model OpenAI, mungkin disebabkan oleh penggunaan respons model OpenAI semasa latihan.

Reaksi Komuniti

Pelepasan yang tidak dijangka dan prestasi kukuh Deepseek-v3 telah mencetuskan keterujaan dalam komuniti. Sesetengah pengguna percaya bahawa prestasi Deepseek-v3 melebihi model OpenAI, terutamanya dalam domain sumber terbuka.

Sumber Tambahan