- Published on
DeepSeek: Chiński idealista technologiczny rewolucjonizuje AI
DeepSeek: Chiński idealista technologiczny rewolucjonizuje AI
DeepSeek, chiński startup specjalizujący się w sztucznej inteligencji, robi furorę, koncentrując się na badaniach podstawowych i innowacjach w architekturze modeli, a nie tylko na rozwoju aplikacji. To podejście stawia ich w opozycji do powszechnego przekonania, że Chiny są dobre tylko w innowacjach aplikacyjnych. Firma dąży do wniesienia znaczącego wkładu w globalny postęp technologiczny.
Ich strategia jest napędzana długoterminową wizją osiągnięcia Sztucznej Inteligencji Ogólnej (AGI), co sprawia, że badania mają dla nich wyższy priorytet niż natychmiastowa komercjalizacja. DeepSeek wyłonił się z firmy zajmującej się handlem ilościowym, High-Flyer, i początkowo zwrócił na siebie uwagę dzięki swojej infrastrukturze chipów AI na dużą skalę. Ostatnio firma stała się znana dzięki wydaniu DeepSeek V2, modelu open-source o znacznie niższych kosztach wnioskowania, co wywołało wojnę cenową wśród chińskich firm zajmujących się sztuczną inteligencją. Innowacyjna architektura MLA i struktura DeepSeekMoESparse doprowadziły do znacznego zmniejszenia zużycia pamięci i kosztów obliczeniowych.
Unikalne podejście DeepSeek
Koncentracja na badaniach podstawowych: W przeciwieństwie do wielu chińskich firm AI, które priorytetowo traktują rozwój aplikacji, DeepSeek poświęca się badaniom i innowacjom w architekturze modeli.
Odrzucenie podejścia 'naśladowcy': DeepSeek aktywnie kwestionuje ideę, że Chiny powinny tylko naśladować i stosować istniejące technologie, zamiast tego dążąc do wniesienia wkładu w globalne innowacje.
Długoterminowa wizja: Ostatecznym celem DeepSeek jest osiągnięcie AGI, co napędza ich koncentrację na badaniach podstawowych i długoterminowym rozwoju.
Zaangażowanie w open-source: DeepSeek zdecydował się udostępnić swoje modele jako open-source, priorytetowo traktując rozwój ekosystemu AI nad natychmiastowymi zyskami komercyjnymi.
Nacisk na zespół i kulturę: DeepSeek wierzy, że ich przewaga konkurencyjna tkwi w rozwoju zespołu, zgromadzonej wiedzy i innowacyjnej kulturze.
Kluczowe innowacje
- Architektura MLA (Multi-head Latent Attention): Ta nowa architektura znacznie zmniejsza zużycie pamięci w porównaniu z tradycyjnymi architekturami MHA.
- Struktura DeepSeekMoESparse: Ta struktura minimalizuje koszty obliczeniowe, przyczyniając się do ogólnego obniżenia kosztów wnioskowania.
- Konstrukcja danych i modelowanie na wzór ludzki: DeepSeek koncentruje się również na ulepszaniu konstrukcji danych i tworzeniu modeli bardziej zbliżonych do ludzkich.
Perspektywa DeepSeek na krajobraz AI
Kwestionowanie status quo: DeepSeek uważa, że Chiny muszą przestać być 'pasażerem na gapę' i stać się wkładem w globalne innowacje technologiczne.
Adresowanie luki: DeepSeek uznaje lukę między chińskimi i zachodnimi możliwościami w zakresie sztucznej inteligencji, szczególnie w strukturze modeli i efektywności szkolenia, i aktywnie pracuje nad jej zamknięciem.
Poza komercjalizacją: DeepSeek uważa, że innowacje nie są napędzane wyłącznie interesami komercyjnymi, ale także ciekawością i kreatywnością.
Znaczenie open-source: DeepSeek postrzega open-source jako akt kulturalny, który sprzyja współpracy i innowacjom, a nie strategię komercyjną.
Wartość oryginalności: DeepSeek podkreśla znaczenie oryginalnych innowacji nad naśladownictwem, podkreślając długoterminowe korzyści z wnoszenia wkładu w globalną społeczność technologiczną.
Założyciel DeepSeek, Liang Wenfeng
Ekspertyza techniczna: Liang Wenfeng jest opisywany jako rzadka osoba z silnymi umiejętnościami w zakresie inżynierii infrastruktury i badań modelowych.
Praktyczne podejście: Aktywnie uczestniczy w badaniach, kodowaniu i dyskusjach zespołowych, a nie tylko działa jako menedżer.
Idealistyczna wizja: Liang Wenfeng jest idealistą technologicznym, który priorytetowo traktuje względy etyczne nad zyskiem i podkreśla znaczenie oryginalnej innowacji.
Koncentracja na długoterminowym wpływie: Koncentruje się na wnoszeniu wkładu w rozwój sztucznej inteligencji i ogólną efektywność społeczeństwa.
Zespół i kultura DeepSeek
Pozyskiwanie talentów: DeepSeek koncentruje się na zatrudnianiu osób z pasją do badań i silnym poczuciem ciekawości, często wybierając kandydatów o unikalnym pochodzeniu.
Samoorganizujące się zespoły: DeepSeek promuje samoorganizującą się strukturę zespołu, w której poszczególne osoby są zachęcane do realizacji swoich pomysłów i współpracy z innymi.
Elastyczne przydzielanie zasobów: Członkowie zespołu mają swobodę w przydzielaniu zasobów, takich jak moc obliczeniowa i personel, w zależności od potrzeb.
Nacisk na pasję: DeepSeek priorytetowo traktuje pasję do badań nad zachętami finansowymi, przyciągając osoby, które kierują się chęcią rozwiązywania trudnych problemów.
Przyszłość DeepSeek
Brak planów zamkniętego oprogramowania: DeepSeek jest zaangażowany w pozostanie open-source, wierząc, że silny ekosystem technologiczny jest ważniejszy niż krótkoterminowe zyski.
Brak natychmiastowych potrzeb finansowania: DeepSeek nie szuka obecnie finansowania, ponieważ ich głównym wyzwaniem jest dostęp do wysokiej klasy chipów.
Koncentracja na badaniach podstawowych: DeepSeek będzie nadal priorytetowo traktować badania podstawowe i innowacje, a nie rozwój aplikacji.
Długoterminowa wizja AGI: DeepSeek z optymizmem patrzy w przyszłość sztucznej inteligencji i wierzy, że AGI zostanie osiągnięte za ich życia.
Nacisk na specjalizację: DeepSeek wyobraża sobie przyszłość, w której wyspecjalizowane firmy będą dostarczać podstawowe modele i usługi, umożliwiając innym budowanie na nich.