Published on

DeepSeek V3: Przełomowy Model Open-Source

Autorzy
  • avatar
    Imię
    Ajax
    Twitter

Wprowadzenie do DeepSeek V3: Przełomowy Model Open-Source

DeepSeek V3, model z 671 miliardami parametrów oparty na architekturze Mixture-of-Experts (MoE), został udostępniony jako open-source, wywołując spore poruszenie w społeczności AI. Model ten został wytrenowany na 14,8 bilionach wysokiej jakości tokenów, a podczas wnioskowania aktywowanych jest tylko 37 miliardów parametrów.

Wydajność i Porównanie z Innymi Modelami

DeepSeek V3 osiąga najwyższą wydajność (SOTA) wśród modeli open-source, przewyższając Llama 3.1 405B i rywalizując z najlepszymi modelami, takimi jak GPT-4o i Claude 3.5 Sonnet. Co istotne, DeepSeek V3 jest znacznie tańszy niż modele Claude 3.5, kosztując zaledwie 9% ceny Claude 3.5 Sonnet.

Koszty i Efektywność Szkolenia

Szkolenie DeepSeek V3 wymagało mniej niż 2,8 miliona godzin GPU, co stanowi ogromną różnicę w porównaniu do 30,8 miliona godzin GPU potrzebnych dla Llama 3 405B. Całkowity koszt szkolenia DeepSeek V3 wyniósł około 5,576 miliona dolarów, podczas gdy szkolenie 7B modelu Llama 2 kosztuje 760 000 dolarów. Ta efektywność kosztowa jest wynikiem optymalizacji algorytmów, frameworków i sprzętu.

Karpathy, jeden z założycieli OpenAI, zauważył, że DeepSeek V3 osiąga porównywalną wydajność przy znacznie mniejszych zasobach, co podkreśla potencjał optymalizacji w danych i algorytmach.

Ocena i Opinie Ekspertów

DeepSeek V3 spotkał się z uznaniem ekspertów AI, takich jak Jia Yangqing i Tian Yundong z Meta. Model ten przewyższa inne modele open-source, takie jak Qwen2.5-72B i Llama-3.1-405B w różnych benchmarkach. Jego wydajność jest porównywalna z najlepszymi modelami zamkniętymi, takimi jak GPT-4o i Claude-3.5-Sonnet.

DeepSeek V3 generuje tokeny z prędkością 60 na sekundę, co stanowi 3-krotny wzrost prędkości. Ceny API są również bardzo konkurencyjne, z tokenami wejściowymi kosztującymi 0,5-2 RMB za milion i tokenami wyjściowymi kosztującymi 8 RMB za milion. Ocena Kagi umieszcza DeepSeek V3 na szczycie modeli open-source, blisko Sonnet-3.5 i GPT-4o.

Zaangażowanie Społeczności

Model jest dostępny do testowania na oficjalnej platformie, a kod został udostępniony jako open-source do pobrania. Entuzjaści AI eksperymentują z DeepSeek V3, w tym uruchamiając go na stosach Mac Mini.

Deweloperzy wyrazili zdumienie zdolnością modelu do rozumienia złożonych instrukcji bez wyraźnych wyjaśnień. Jeden z deweloperów stworzył grę z logo firm AI przy użyciu DeepSeek V3 w krótkim czasie. Podkreślono niski koszt uruchomienia DeepSeek V3, przy czym jeden z użytkowników zauważył, że kosztuje on tylko 2 dolary dziennie przy 60 tokenach na sekundę.

Szczegóły Szkolenia

Szkolenie DeepSeek V3 zostało zoptymalizowane poprzez ulepszenia algorytmiczne, frameworkowe i sprzętowe. Model został wytrenowany na bilionie tokenów w 180 000 godzin GPU, kończąc wstępne szkolenie w mniej niż dwa miesiące. Całkowity koszt szkolenia wyniósł 2,788 miliona godzin GPU, czyli 5,576 miliona dolarów.

Kluczowe optymalizacje obejmują:

  • Równoważenie Obciążenia: Nowatorska strategia równoważenia obciążenia z terminami biasu dla każdego eksperta w architekturze MoE.
  • Multi-Token Prediction (MTP): Cel szkolenia, który poprawia wydajność modelu i umożliwia szybsze wnioskowanie poprzez spekulatywne dekodowanie.
  • FP8 Training: Zastosowanie szkolenia mieszanego precyzji FP8, co demonstruje jego wykonalność dla modeli na dużą skalę.
  • DualPipe: Wydajny algorytm równoległości potokowej, który nakłada obliczenia i komunikację, zmniejszając narzut komunikacyjny.

Architektura MoE składa się z 256 ekspertów routingu i 1 wspólnego eksperta, przy czym każdy token aktywuje 8 ekspertów i jest wysyłany do maksymalnie 4 węzłów. W celu zrównoważenia obciążenia podczas wnioskowania wdrażani są nadmiarowi eksperci. Zdolności wnioskowania modelu zostały ulepszone poprzez destylowanie wiedzy z modelu długołańcuchowego (DeepSeek R1).

Wyniki Eksperymentalne

DeepSeek V3 osiąga wydajność SOTA wśród modeli open-source w różnych benchmarkach. Model dobrze radzi sobie w eksperymentach "igła w stogu siana", demonstrując swoją zdolność do pobierania konkretnych informacji z długich kontekstów.

Zasoby