Niespodziewane Ujawnienie Nowego Modelu Deepseek: Benchamrki Programistyczne Przewyższają Claude 3.5 Sonnet

Deepseek-v3, nieogłoszony model, został przecieknięty i już wykazuje imponującą wydajność. Przewyższył on Claude 3.5 Sonnet w wielojęzycznym benchmarku programistycznym Aider. Obecnie Deepseek-v3 jest najsilniejszym otwartym modelem LLM na platformie ewaluacyjnej LiveBench. Architektura modelu charakteryzuje się strukturą MoE z 685 miliardami parametrów, co stanowi znaczące ulepszenie w porównaniu z poprzednimi wersjami.

Informacje Ogólne

Przeciek został po raz pierwszy zgłoszony przez użytkowników Reddita, którzy znaleźli model dostępny na API i stronach internetowych. Wydajność Deepseek-v3 została oceniona w różnych benchmarkach, w tym Aider i LiveBench. Otwarte wagi modelu są już dostępne na Hugging Face, chociaż karta modelu nie jest jeszcze dostępna.

Szczegóły Techniczne Deepseek-V3

Architektura Modelu

Rozmiar Parametrów: 685 miliardów parametrów
Struktura MoE: Architektura Mixture of Experts z 256 ekspertami
Routing: Wykorzystuje funkcję sigmoidalną do routingu, wybierając 8 najlepszych ekspertów (Top-k=8)
Okno Kontekstowe: Obsługuje 64K kontekstu, z domyślnym 4K i maksymalnym 8K
Szybkość Generowania Tokenów: Około 60 tokenów na sekundę

Kluczowe Zmiany Architektoniczne w Porównaniu z V2

Funkcja Bramki: v3 używa funkcji sigmoidalnej zamiast softmax do wyboru ekspertów. Pozwala to modelowi wybierać z większego zestawu ekspertów, w przeciwieństwie do softmax, który ma tendencję do faworyzowania kilku.
Wybór Top-k: v3 wprowadza nową metodę noaux_tc dla wyboru Top-k, która nie wymaga dodatkowej straty. Upraszcza to trening i poprawia wydajność poprzez bezpośrednie wykorzystanie funkcji straty głównego zadania.
Korekta Wyniku Eksperta: Dodano nowy parametr, e_score_correction_bias, aby dostosować wyniki ekspertów, co prowadzi do lepszej wydajności podczas wyboru ekspertów i treningu modelu.

Porównanie z V2 i V2.5

v3 vs v2: v3 jest zasadniczo ulepszoną wersją v2, ze znaczącymi poprawkami we wszystkich parametrach.
v3 vs v2.5: v3 przewyższa v2.5 pod względem konfiguracji, w tym większej liczby ekspertów, większych rozmiarów warstw pośrednich i większej liczby ekspertów na token.

Testy Użytkowników i Obserwacje

Wstępne Testy

Simon Willison, programista, przetestował Deepseek-v3 i odkrył, że identyfikuje się on jako oparty na architekturze GPT-4 OpenAI. Model został również przetestowany pod kątem generowania obrazów, tworząc obraz SVG pelikana jadącego na rowerze.

Niespodziewana Identyfikacja

Wielu użytkowników zgłosiło, że Deepseek-v3 identyfikował się jako oparty na modelach OpenAI, prawdopodobnie ze względu na wykorzystanie odpowiedzi modeli OpenAI podczas treningu.

Reakcja Społeczności

Nieoczekiwane wydanie i silna wydajność Deepseek-v3 wywołały entuzjazm w społeczności. Niektórzy użytkownicy uważają, że wydajność Deepseek-v3 przewyższa wydajność modeli OpenAI, szczególnie w domenie open-source.