- Published on
Wyciek parametrów modeli OpenAI: artykuł Microsoftu ujawnia rozmiar GPT4o
Ujawnienie parametrów modeli OpenAI: artykuł Microsoftu niespodziewanie ujawnia rozmiar GPT4o
W świecie technologii skala parametrów dużych modeli językowych (LLM) zawsze była pilnie strzeżoną tajemnicą. Jednak ostatnio artykuł naukowy opublikowany we współpracy zespołów z Microsoftu i Uniwersytetu Waszyngtońskiego, dotyczący medycyny, niespodziewanie ujawnił informacje o parametrach kilku modeli OpenAI, co wzbudziło szerokie zainteresowanie.
Ujawnione parametry
Kluczowe informacje ujawnione w artykule obejmują:
- GPT-4: Około 1,76 biliona parametrów
- GPT-4o: Około 200 miliardów parametrów
- GPT-4o mini: Około 8 miliardów parametrów
- o1-preview: Około 300 miliardów parametrów
- o1-mini: Około 100 miliardów parametrów
- Claude 3.5 Sonnet: Około 175 miliardów parametrów
Warto zauważyć, że naukowcy oświadczyli, iż te parametry są jedynie wartościami szacunkowymi.
Seria GPT-4o wywołuje gorącą dyskusję
Zaskakujące jest, że liczba parametrów serii GPT-4o jest znacznie niższa niż oczekiwano, szczególnie w przypadku wersji mini, która ma zaledwie 8 miliardów parametrów. Niektórzy internauci spekulują, że GPT-4o mini może wykorzystywać architekturę mieszanych ekspertów (MoE), gdzie faktycznie aktywne jest 8 miliardów parametrów, ale całkowita liczba parametrów modelu może sięgać 400 miliardów. Taka architektura umożliwia mniejszym modelom zdobywanie większej wiedzy, przy jednoczesnym zachowaniu szybkości działania.
Porównanie parametrów Claude 3.5 Sonnet
Ponadto, niektórzy komentatorzy zauważyli, że liczba parametrów Claude 3.5 Sonnet jest porównywalna z GPT-3 davinci, co skłania do dalszych rozważań na temat relacji między wydajnością a skalą różnych modeli.
Standard MEDEC: nowy standard w wykrywaniu błędów medycznych
Artykuł, w którym ujawniono parametry, dotyczy w rzeczywistości standardu oceny o nazwie MEDEC1, który ma na celu ocenę wydajności dużych modeli językowych w zadaniach wykrywania i korygowania błędów medycznych. Standard ten koncentruje się na błędach w notatkach klinicznych, obejmujących pięć aspektów: diagnozę, zarządzanie, leczenie, farmakoterapię i czynniki przyczynowe.
Źródło i charakterystyka danych
Zbiór danych MEDEC zawiera 488 notatek klinicznych z trzech amerykańskich systemów szpitalnych, łącznie 3848 tekstów klinicznych. Dane te nie były wcześniej dostępne dla żadnego dużego modelu językowego, co zapewnia autentyczność i wiarygodność oceny. Obecnie zbiór danych jest wykorzystywany w zadaniu współdzielonym MEDIQA-CORR do oceny wydajności 17 systemów uczestniczących.
Testy i wyniki
Zespół badawczy wykorzystał zbiór danych MEDEC do testowania różnych zaawansowanych modeli, w tym o1-preview, GPT-4, Claude 3.5 Sonnet i Gemini 2.0 Flash. Jednocześnie zaproszono dwóch doświadczonych lekarzy do wykonania tych samych zadań wykrywania błędów w celu porównania wyników ludzkich i maszynowych.
Wyniki pokazały, że choć duże modele językowe osiągają dobre wyniki w wykrywaniu i korygowaniu błędów medycznych, nadal ustępują lekarzom. To sugeruje, że MEDEC jest trudnym standardem oceny.
Główne przesłanie artykułu: zastosowanie i wyzwania LLM w medycynie
Artykuł wskazuje, że badania przeprowadzone w amerykańskich placówkach medycznych wykazały, iż jeden na pięciu pacjentów czytających notatki kliniczne zgłasza znalezienie błędów. 40% tych błędów uznano za poważne, a najczęściej występujące dotyczyły błędów związanych z diagnozą.
Zastosowanie i ryzyko LLM w dokumentacji medycznej
Wraz z coraz większą liczbą zadań dotyczących dokumentacji medycznej (takich jak generowanie notatek klinicznych) wykonywanych przez duże modele językowe, kluczowe jest zapewnienie dokładności i bezpieczeństwa informacji wyjściowych LLM. Modele LLM mogą tworzyć "halucynacje", generując nieprawidłowe lub zmyślone treści, co może mieć poważne konsekwencje dla decyzji klinicznych.
Znaczenie standardu MEDEC
Aby rozwiązać te problemy i zapewnić bezpieczeństwo LLM w generowaniu treści medycznych, konieczne są rygorystyczne metody weryfikacji. Wprowadzenie standardu MEDEC ma na celu ocenę zdolności modeli do wykrywania i korygowania błędów medycznych w tekstach klinicznych.
Konstrukcja zbioru danych MEDEC
Zbiór danych MEDEC zawiera 3848 tekstów klinicznych z różnych dziedzin medycyny, które zostały oznaczone przez 8 medycznych adnotatorów. Zbiór danych obejmuje pięć rodzajów błędów:
- Diagnoza (Diagnosis): Nieprawidłowa diagnoza.
- Zarządzanie (Management): Nieprawidłowe zalecenia dotyczące dalszego postępowania.
- Farmakoterapia (Pharmacotherapy): Nieprawidłowe zalecenia dotyczące farmakoterapii.
- Leczenie (Treatment): Nieprawidłowe zalecenia dotyczące planu leczenia.
- Czynnik przyczynowy (Causal Organism): Nieprawidłowe wskazanie patogenu lub czynnika chorobotwórczego.
Wybór tych rodzajów błędów opiera się na najczęściej spotykanych typach pytań na egzaminach medycznych.
Metody tworzenia danych
Zbiór danych został zbudowany przy użyciu dwóch metod:
- Metoda #1 (MS): Wykorzystanie pytań z egzaminów medycznych ze zbioru MedQA, gdzie adnotatorzy z wykształceniem medycznym wprowadzali błędne odpowiedzi do tekstu scenariusza.
- Metoda #2 (UW): Wykorzystanie bazy danych autentycznych notatek klinicznych z trzech szpitali Uniwersytetu Waszyngtońskiego, gdzie zespoły studentów medycyny ręcznie wprowadzały błędy do zapisów.
Obie metody przeszły rygorystyczną kontrolę jakości, aby zapewnić dokładność i wiarygodność danych.
Metody wykrywania i korygowania błędów medycznych
Aby ocenić wydajność modeli w zadaniach wykrywania i korygowania błędów medycznych, badacze podzielili ten proces na trzy podzadania:
- Podzadanie A: Przewidywanie flagi błędu (0: brak błędu; 1: występuje błąd).
- Podzadanie B: Wyodrębnienie zdań zawierających błędy.
- Podzadanie C: Generowanie poprawionej treści dla zdań zawierających błędy.
Zespół badawczy stworzył rozwiązania oparte na LLM i wykorzystał dwa różne zestawy podpowiedzi, aby wygenerować wymagane dane wyjściowe.
Eksperymenty i wyniki
Modele językowe
Badacze przeprowadzili eksperymenty z różnymi modelami językowymi, w tym Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini i o1-preview.
Analiza wyników eksperymentów
Wyniki eksperymentów wykazały, że Claude 3.5 Sonnet osiągnął dobre wyniki w wykrywaniu flag błędów i zdań zawierających błędy. o1-preview wypadł najlepiej w korygowaniu błędów. Jednak wszystkie modele nadal ustępują lekarzom w wykrywaniu i korygowaniu błędów medycznych.
Wyniki pokazały również, że modele mają problemy z dokładnością i w wielu przypadkach nadmiernie przewidywały występowanie błędów (tj. generowały "halucynacje"). Ponadto, istnieje rozbieżność w rankingu pomiędzy wydajnością klasyfikacji a wydajnością generowania poprawionych treści.
Analiza rodzajów błędów
W wykrywaniu i korygowaniu różnych rodzajów błędów o1-preview wykazał wyższy współczynnik odzyskania w wykrywaniu flag błędów i zdań, ale lekarze osiągnęli lepszą dokładność.
Kierunki przyszłych badań
Badacze wskazują, że kolejnym krokiem w badaniach jest wprowadzenie i optymalizacja większej liczby przykładów w podpowiedziach, aby jeszcze bardziej zwiększyć wydajność modeli w wykrywaniu i korygowaniu błędów medycznych.