Published on

Microsoft stellt leistungsstarkes Phi-4-Modell vor, das GPT-4o übertrifft

Autoren
  • avatar
    Name
    Ajax
    Twitter

Das neue Phi-4 Modell von Microsoft: Eine Revolution in der KI-Landschaft

Microsoft Research hat kürzlich das hochmoderne, kleinparametrische Modell Phi-4 vorgestellt, welches in der KI-Gemeinschaft für großes Aufsehen sorgt. Mit lediglich 14 Milliarden Parametern demonstriert Phi-4 eine bemerkenswerte Leistung in diversen Benchmarks. Bemerkenswert ist, dass es sogar OpenAIs GPT-4o und andere führende Open-Source-Modelle wie Qwen 2.5-14B und Llama-3.3-70B übertrifft.

Überragende Ergebnisse in spezifischen Tests

In konkreten Tests erzielte Phi-4 einen herausragenden Wert von 91,8 Punkten im American Mathematics Competition (AMC). Damit übertraf es zahlreiche bekannte Modelle, sowohl aus dem Open-Source- als auch dem proprietären Bereich, einschließlich Gemini Pro 1.5 und Claude 3.5 Sonnet. Seine Gesamtleistung ist sogar vergleichbar mit dem 405 Milliarden Parameter umfassenden Llama-3.1.

Offizielle Open-Source-Veröffentlichung und ihre Bedeutung

Diese Entwicklung hat in der Community eine lebhafte Reaktion ausgelöst. Zuvor hatten Nutzer bereits inoffizielle Phi-4-Gewichtungen auf Hugging Face hochgeladen. Nun hat Microsoft Phi-4 offiziell als Open Source unter der MIT-Lizenz veröffentlicht, was die kommerzielle Nutzung ermöglicht. Die offizielle Open-Source-Adresse lautet: phi-4

Hugging Face hat die Open-Source-Veröffentlichung von Phi-4 ebenfalls begrüßt, was die Bedeutung dieses Schrittes unterstreicht.

Die Schlüsselvorteile von Phi-4: Synthetische Daten und präzises Training

Die außergewöhnliche Leistung von Phi-4 trotz seiner geringen Parameterzahl ist vor allem auf die Verwendung hochwertiger synthetischer Daten zurückzuführen. Im Vergleich zu herkömmlichen Web-Crawling-Daten bieten synthetische Daten strukturiertere und schrittweise Lernmaterialien. Dies ermöglicht dem Modell, die Logik und den Argumentationsprozess der Sprache effizienter zu erlernen.

Strukturierter Lernansatz

Synthetische Daten können schrittweise nach Lösungswegen präsentiert werden, z.B. bei der Beantwortung von mathematischen Aufgaben. Dies hilft dem Modell, die Struktur von Problemen und die Lösungsansätze besser zu verstehen.

Kontextuelle Ausrichtung

Synthetische Daten sind besser an den Argumentationskontext des Modells angepasst und ähneln den Ausgabeformaten, die in realen Anwendungen benötigt werden. Dadurch wird das Modell bereits in der Vorabtrainingsphase an die Anforderungen realer Anwendungen angepasst. Beispielsweise werden Fakten aus Internetforen in einen Stil umgeschrieben, der einer Interaktion mit einem großen Modell ähnelt. Dadurch wirken diese Informationen in den vom Modell generierten Dialogen natürlicher und plausibler.

Prinzipien der synthetischen Datengenerierung in Phi-4

Die Generierung synthetischer Daten für Phi-4 folgt diesen Prinzipien:

  • Vielfalt: Umfassende Abdeckung unterschiedlicher Datentypen und Szenarien.
  • Feinheit und Komplexität: Die Daten sind detailliert und anspruchsvoll, um das Modell herauszufordern.
  • Genauigkeit: Die Daten sind präzise und fehlerfrei.
  • Argumentationsketten: Die Daten ermöglichen das Erlernen von logischen Schlussfolgerungen.

Diese Prinzipien stellen die Qualität der synthetischen Daten sicher und umfassen über 50 verschiedene Arten von synthetischen Datensätzen. Microsoft hat mit Hilfe von mehrstufigen Prompt-Prozessen, Seed-Kuration, Umschreibung und Verbesserung sowie Selbstkorrektur etwa 400 Milliarden ungewichtete Token generiert.

Die Rolle organischer Daten in Phi-4

Neben synthetischen Daten wurden auch organische Daten streng ausgewählt und gefiltert. Daten wurden aus verschiedenen Quellen wie Webinhalten, lizenzierten Büchern und Code-Repositories gesammelt. In einem zweistufigen Filterprozess wurden Daten mit hohem Bildungswert und tiefer Argumentationstiefe extrahiert. Diese Seed-Daten bilden die Grundlage für die Generierung synthetischer Daten und werden auch direkt für das Vorabtraining verwendet, um den Wissensschatz des Modells weiter zu erweitern.

Während des Auswahlprozesses verwendete Microsoft eine Filterungsmethode auf Basis von kleinen Klassifikatoren, um hochwertige Dokumente aus großen Webdaten zu selektieren. Für mehrsprachige Daten wurden spezielle Verfahren angewendet, um sicherzustellen, dass das Modell eine Vielzahl von Sprachen verarbeiten kann, darunter Deutsch, Spanisch, Französisch, Portugiesisch, Italienisch, Hindi und Japanisch.

Der Trainingsprozess von Phi-4

Das Vorabtraining von Phi-4 verwendet hauptsächlich synthetische Daten, ergänzt durch eine geringe Menge hochwertiger organischer Daten. Diese Datenmischungsstrategie ermöglicht es dem Modell, sowohl Argumentations- und Problemlösungsfähigkeiten zu erlernen als auch umfangreiche Wissensinhalte aufzunehmen.

In der mittleren Trainingsphase erweiterte Phi-4 die Kontextlänge von 4096 auf 16384, um die Fähigkeit des Modells zur Verarbeitung von Langtexten zu verbessern. Dies umfasste die Auswahl von Stichproben mit einer Kontextlänge von mehr als 8K aus hochwertigen nicht-synthetischen Datensätzen sowie die Erstellung neuer synthetischer Datensätze, die die 4K-Sequenzanforderungen erfüllen.

Die Nachbearbeitungsphase ist entscheidend für die Optimierung von Phi-4. Microsoft setzte dabei auf Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO).

Supervised Fine-Tuning (SFT) Phase

In der SFT-Phase wurde das vortrainierte Modell mit etwa 8 Milliarden Token aus hochwertigen Daten aus verschiedenen Bereichen feinabgestimmt. Die Lernrate betrug 10-6. Es wurden auch mehrsprachige Daten in 40 Sprachen hinzugefügt. Alle Daten wurden im chatml-Format verwendet.

Direct Preference Optimization (DPO) Technologie

Die DPO-Technologie dient dazu, die Ausgabe des Modells durch die Generierung von Präferenzdaten anzupassen, um sie besser an die menschlichen Präferenzen anzupassen. Microsoft führte auch die Key Tokens Search (PTS)-Technologie ein, um DPO-Paare zu generieren. Diese Technologie identifiziert wichtige Token, die einen großen Einfluss auf die Korrektheit der Modellantworten haben, und erstellt Präferenzdaten für diese Token. Dies verbessert die Leistung des Modells bei Argumentationsaufgaben.

Leistungsbewertung von Phi-4

Um die Leistung von Phi-4 zu bewerten, hat Microsoft es in mehreren Benchmarks getestet. In akademischen Benchmarks wie MMLU, GPQA, MATH und HumanEval hat Phi-4 herausragende Ergebnisse gezeigt.

Im MMLU-Test erzielte Phi-4 einen hohen Wert von 84,8. In den Tests GPQA und MATH übertraf es sogar GPT-4o und demonstrierte damit seine starke Argumentationsfähigkeit in Aufgaben im Zusammenhang mit Mathematikwettbewerben. Im Vergleich zu Modellen ähnlicher und größerer Größenordnung übertraf Phi-4 das Open-Source-Modell Qwen-2.5-14B-Instruct in 9 von 12 Benchmarks.