- Published on
Niespodziewane Ujawnienie Nowego Modelu Deepseek: Benchamrki Programistyczne Przewyższają Claude 3.5 Sonnet
Niespodziewane Ujawnienie Nowego Modelu Deepseek: Benchamrki Programistyczne Przewyższają Claude 3.5 Sonnet
Deepseek-v3, nieogłoszony model, został przecieknięty i już wykazuje imponującą wydajność. Przewyższył on Claude 3.5 Sonnet w wielojęzycznym benchmarku programistycznym Aider. Obecnie Deepseek-v3 jest najsilniejszym otwartym modelem LLM na platformie ewaluacyjnej LiveBench. Architektura modelu charakteryzuje się strukturą MoE z 685 miliardami parametrów, co stanowi znaczące ulepszenie w porównaniu z poprzednimi wersjami.
Informacje Ogólne
Przeciek został po raz pierwszy zgłoszony przez użytkowników Reddita, którzy znaleźli model dostępny na API i stronach internetowych. Wydajność Deepseek-v3 została oceniona w różnych benchmarkach, w tym Aider i LiveBench. Otwarte wagi modelu są już dostępne na Hugging Face, chociaż karta modelu nie jest jeszcze dostępna.
Szczegóły Techniczne Deepseek-V3
Architektura Modelu
- Rozmiar Parametrów: 685 miliardów parametrów
- Struktura MoE: Architektura Mixture of Experts z 256 ekspertami
- Routing: Wykorzystuje funkcję sigmoidalną do routingu, wybierając 8 najlepszych ekspertów (Top-k=8)
- Okno Kontekstowe: Obsługuje 64K kontekstu, z domyślnym 4K i maksymalnym 8K
- Szybkość Generowania Tokenów: Około 60 tokenów na sekundę
Kluczowe Zmiany Architektoniczne w Porównaniu z V2
- Funkcja Bramki: v3 używa funkcji sigmoidalnej zamiast softmax do wyboru ekspertów. Pozwala to modelowi wybierać z większego zestawu ekspertów, w przeciwieństwie do softmax, który ma tendencję do faworyzowania kilku.
- Wybór Top-k: v3 wprowadza nową metodę noaux_tc dla wyboru Top-k, która nie wymaga dodatkowej straty. Upraszcza to trening i poprawia wydajność poprzez bezpośrednie wykorzystanie funkcji straty głównego zadania.
- Korekta Wyniku Eksperta: Dodano nowy parametr, e_score_correction_bias, aby dostosować wyniki ekspertów, co prowadzi do lepszej wydajności podczas wyboru ekspertów i treningu modelu.
Porównanie z V2 i V2.5
- v3 vs v2: v3 jest zasadniczo ulepszoną wersją v2, ze znaczącymi poprawkami we wszystkich parametrach.
- v3 vs v2.5: v3 przewyższa v2.5 pod względem konfiguracji, w tym większej liczby ekspertów, większych rozmiarów warstw pośrednich i większej liczby ekspertów na token.
Testy Użytkowników i Obserwacje
Wstępne Testy
Simon Willison, programista, przetestował Deepseek-v3 i odkrył, że identyfikuje się on jako oparty na architekturze GPT-4 OpenAI. Model został również przetestowany pod kątem generowania obrazów, tworząc obraz SVG pelikana jadącego na rowerze.
Niespodziewana Identyfikacja
Wielu użytkowników zgłosiło, że Deepseek-v3 identyfikował się jako oparty na modelach OpenAI, prawdopodobnie ze względu na wykorzystanie odpowiedzi modeli OpenAI podczas treningu.
Reakcja Społeczności
Nieoczekiwane wydanie i silna wydajność Deepseek-v3 wywołały entuzjazm w społeczności. Niektórzy użytkownicy uważają, że wydajność Deepseek-v3 przewyższa wydajność modeli OpenAI, szczególnie w domenie open-source.