Published on

Niespodziewane Ujawnienie Nowego Modelu Deepseek: Benchamrki Programistyczne Przewyższają Claude 3.5 Sonnet

Autorzy
  • avatar
    Imię
    Ajax
    Twitter

Niespodziewane Ujawnienie Nowego Modelu Deepseek: Benchamrki Programistyczne Przewyższają Claude 3.5 Sonnet

Deepseek-v3, nieogłoszony model, został przecieknięty i już wykazuje imponującą wydajność. Przewyższył on Claude 3.5 Sonnet w wielojęzycznym benchmarku programistycznym Aider. Obecnie Deepseek-v3 jest najsilniejszym otwartym modelem LLM na platformie ewaluacyjnej LiveBench. Architektura modelu charakteryzuje się strukturą MoE z 685 miliardami parametrów, co stanowi znaczące ulepszenie w porównaniu z poprzednimi wersjami.

Informacje Ogólne

Przeciek został po raz pierwszy zgłoszony przez użytkowników Reddita, którzy znaleźli model dostępny na API i stronach internetowych. Wydajność Deepseek-v3 została oceniona w różnych benchmarkach, w tym Aider i LiveBench. Otwarte wagi modelu są już dostępne na Hugging Face, chociaż karta modelu nie jest jeszcze dostępna.

Szczegóły Techniczne Deepseek-V3

Architektura Modelu

  • Rozmiar Parametrów: 685 miliardów parametrów
  • Struktura MoE: Architektura Mixture of Experts z 256 ekspertami
  • Routing: Wykorzystuje funkcję sigmoidalną do routingu, wybierając 8 najlepszych ekspertów (Top-k=8)
  • Okno Kontekstowe: Obsługuje 64K kontekstu, z domyślnym 4K i maksymalnym 8K
  • Szybkość Generowania Tokenów: Około 60 tokenów na sekundę

Kluczowe Zmiany Architektoniczne w Porównaniu z V2

  • Funkcja Bramki: v3 używa funkcji sigmoidalnej zamiast softmax do wyboru ekspertów. Pozwala to modelowi wybierać z większego zestawu ekspertów, w przeciwieństwie do softmax, który ma tendencję do faworyzowania kilku.
  • Wybór Top-k: v3 wprowadza nową metodę noaux_tc dla wyboru Top-k, która nie wymaga dodatkowej straty. Upraszcza to trening i poprawia wydajność poprzez bezpośrednie wykorzystanie funkcji straty głównego zadania.
  • Korekta Wyniku Eksperta: Dodano nowy parametr, e_score_correction_bias, aby dostosować wyniki ekspertów, co prowadzi do lepszej wydajności podczas wyboru ekspertów i treningu modelu.

Porównanie z V2 i V2.5

  • v3 vs v2: v3 jest zasadniczo ulepszoną wersją v2, ze znaczącymi poprawkami we wszystkich parametrach.
  • v3 vs v2.5: v3 przewyższa v2.5 pod względem konfiguracji, w tym większej liczby ekspertów, większych rozmiarów warstw pośrednich i większej liczby ekspertów na token.

Testy Użytkowników i Obserwacje

Wstępne Testy

Simon Willison, programista, przetestował Deepseek-v3 i odkrył, że identyfikuje się on jako oparty na architekturze GPT-4 OpenAI. Model został również przetestowany pod kątem generowania obrazów, tworząc obraz SVG pelikana jadącego na rowerze.

Niespodziewana Identyfikacja

Wielu użytkowników zgłosiło, że Deepseek-v3 identyfikował się jako oparty na modelach OpenAI, prawdopodobnie ze względu na wykorzystanie odpowiedzi modeli OpenAI podczas treningu.

Reakcja Społeczności

Nieoczekiwane wydanie i silna wydajność Deepseek-v3 wywołały entuzjazm w społeczności. Niektórzy użytkownicy uważają, że wydajność Deepseek-v3 przewyższa wydajność modeli OpenAI, szczególnie w domenie open-source.

Dodatkowe Zasoby