AI News KW 16: GLM-5.1, Claude Mythos & Muse Spark

Ein Open-Source-Modell aus China entthront die Closed-Source-Spitze: Zhipus GLM-5.1 schlägt GPT-5.4 und Claude Opus 4.6 im Coding. Anthropic zieht gleichzeitig die Reißleine und schränkt Zugriff auf sein stärkstes Modell „Mythos" deutlich ein. Und Meta überrascht mit Muse Spark — einer offenen Agenten-Runtime, die auf jedem Rechner läuft. Willkommen in KW 16.

🔥 Top-Story: GLM-5.1 — 754B Open-Source-Modell schlägt GPT-5.4 im Coding

Zhipu GLM-5.1: 754B Open-Source-Modell schlägt GPT-5.4 im Coding

Der chinesische AI-Lab Zhipu hat am 14. April GLM-5.1 veröffentlicht — ein Mixture-of-Experts-Modell mit 754 Milliarden Parametern gesamt und 37 B aktiv je Token. Der Kracher: Auf SWE-bench Verified erreicht GLM-5.1 laut Zhipus offiziellem Technical Report 74,2 % — und liegt damit 3,1 Punkte über GPT-5.4 Thinking und 1,8 Punkte über Claude Opus 4.6.

Das Besondere: GLM-5.1 ist unter der MIT-Lizenz verfügbar. Gewichte, Trainingscode und ein Großteil des Datensatzes liegen auf Hugging Face. Damit ist es das erste Open-Source-Modell, das in einer Disziplin — Coding — eine der proprietären Frontier-Modelle schlägt, ohne sich hinter einem Benchmark-Trick zu verstecken: Zhipu hat die SWE-bench-Runs mit vollem Repo-Kontext und Standard-Agent-Scaffold laufen lassen.

Technisch nutzt GLM-5.1 eine neue GLU-MoE-Architektur mit 128 Experten pro Layer und einem verbesserten Router, der laut Zhipu-Paper die „expert collapse" früherer MoE-Modelle vermeidet. Kontextfenster: 1 Million Tokens. Inferenz auf einem 8×H100-Server ist über vLLM und SGLang am ersten Tag lauffähig; die Community liefert innerhalb von 48 Stunden GGUF-Quantisierungen für lokales Llama.cpp-Hosting.

Warum das interessant ist: Bisher galt die Regel: Wer Spitzen-Coding-Intelligenz will, zahlt API-Gebühren an OpenAI oder Anthropic. GLM-5.1 bricht diese Prämisse. Für Teams mit Datenschutzanforderungen, Sovereign-AI-Mandaten oder einfach hohem Volumen wird selbst gehostetes Open Source jetzt zur ernsthaften Option — nicht mehr nur als Kompromiss.

Quellen: Z.ai Blog: GLM-5.1 | Hugging Face: GLM-5.1 | GitHub: GLM-5.1

Closed Source unter Druck: Anthropic schränkt Claude Mythos ein

Drei Wochen nach dem versehentlichen Mythos-Leak zieht Anthropic die Notbremse: Laut einer offiziellen Ankündigung vom 15. April wird Claude Mythos zunächst nicht öffentlich als API oder Consumer-Produkt verfügbar sein. Stattdessen: Zugriff nur für ausgewählte Enterprise-Partner, Forschungseinrichtungen und ausgewählte Regierungsbehörden — mit verpflichtendem Red-Teaming-Prozess und Nutzungs-Whitelist.

Anthropic begründet den Schritt mit den im geleakten Entwurf genannten „unprecedented cybersecurity risks". Die begleitende Responsible-Scaling-Evaluation stuft Mythos als erstes Modell offiziell in die Gefahrenklasse ASL-4 ein. Das bedeutet: autonome Exploit-Entwicklung auf Niveau eines erfahrenen Offensive-Security-Teams wurde in Tests reproduzierbar nachgewiesen.

Die Kritik kommt prompt: Open-Source-Advocates wie Meta-Chefwissenschaftler Yann LeCun werfen Anthropic „safety washing" vor — man nutze die ASL-Skala, um einen ohnehin knappen Compute-Pool zu rationieren und Premium-Preise zu rechtfertigen. Die AI Now Institute warnt in einem Statement vom 16. April, dass „privater Zugang für Regierungen" ein riskanter Präzedenzfall sei.

Warum das interessant ist: Zum ersten Mal gibt es ein AI-Modell, das ein kommerzieller Anbieter bewusst aus dem offenen Markt herauszieht. In Kombination mit der GLM-5.1-Nachricht ergibt sich ein klarer Trend: Closed-Source-Anbieter verschieben die Spitze in geschützte Räume, während Open Source die breite Mittelklasse übernimmt. Für Unternehmen stellt sich die Frage, welche Seite man langfristig strategisch einplant.

Quellen: Anthropic: Mythos Access Policy | Anthropic: RSP-Evaluation | AI Now Institute: Closed-Frontier Access

Neue Modelle & Releases

DeepSeek R2: Reasoning-Modell mit offenen Gewichten und Long-Horizon-Planning

DeepSeek hat mit R2 nachgelegt — dem Nachfolger des aufsehenerregenden R1 aus Anfang 2025. R2 ist wie sein Vorgänger ein Reasoning-Modell mit Chain-of-Thought, aber mit deutlich verbessertem Long-Horizon-Planning: Auf dem Humanity's-Last-Exam-Benchmark erreicht R2 nach Zhipu- und Anthropic-Zahlen einen zweistelligen Score — als erstes Open-Source-Modell.

Das 671-B-MoE-Modell ist unter MIT-Lizenz verfügbar, mit 64 K nativem Kontext und einer optionalen YaRN-Extension auf 2 M Tokens. Kostenpunkt über DeepSeeks eigene API: $0,55/MTok Input, $2,19/MTok Output — ein Bruchteil der Frontier-Preise.

Quellen: DeepSeek: R2 Release Notes | Hugging Face: DeepSeek-R2

OpenAI GPT-5.5 Preview: Fokus auf Agenten-Zuverlässigkeit

OpenAI hat für ausgewählte Enterprise-Kunden eine Preview von GPT-5.5 freigeschaltet. Kein großer Benchmark-Sprung — stattdessen Fokus auf Agenten-Zuverlässigkeit: niedrigere Halluzinationsrate, deutlich verbesserte Tool-Call-Accuracy über lange Workflows und ein neues „Task Memory"-System, das über Sessions hinweg Kontext behält.

Auf TAU-bench (Airline-Agent-Szenarien) verbessert sich GPT-5.5 laut OpenAIs eigenem Report von 58 % (GPT-5.4) auf 71 %. Allgemeine Verfügbarkeit ist für Mai angekündigt.

Quellen: OpenAI: GPT-5.5 Preview | OpenAI: GPT-5.5 Agent Evals

Community-Highlight: Meta Muse Spark — Agenten-Runtime für alle

Die Überraschung der Woche kommt von Meta: Muse Spark ist eine neue Open-Source-Agenten-Runtime, die lokal auf jedem Rechner läuft — von MacBook bis GPU-Server. Statt ein weiteres Framework bietet Muse Spark eine einheitliche Laufzeit: LLM-Auswahl, Tool-Execution, Memory-Backend und Safety-Filter sind als austauschbare Module implementiert.

Im Kern verwendet Muse Spark das in KW 15 veröffentlichte Llama-4-Scout-Modell, kann aber nahtlos auf GLM-5.1, DeepSeek R2 oder jedes andere OpenAI-kompatible Backend umschalten. Das Projekt kommt mit Plugins für Filesystem, Browser, Git und HTTP bereits out-of-the-box — und einer grafischen Timeline-Ansicht, die jeden Schritt des Agenten inkl. Kontext, Token-Verbrauch und Tool-Calls visualisiert.

Highlight für Entwickler: Ein eingebauter Replay-Modus, der Agent-Runs deterministisch wiederholt — inklusive Branching-Diffs, um zu sehen, wie kleine Prompt-Änderungen das Verhalten beeinflussen. Ideal für Debugging und systematische Prompt-Evaluierung.

Warum das interessant ist: Meta hatte im Agenten-Bereich bisher wenig zu sagen. Muse Spark wirkt durchdacht, gut dokumentiert und — im Gegensatz zu vielen halbfertigen Agent-Frameworks — wie ein ernstgemeinter Infrastruktur-Versuch. Angesichts der rasant wachsenden Zahl an Agent-Tools könnte Muse Spark die Rolle einnehmen, die einst Docker für Container hatte.

Quelle: Meta AI Blog: Muse Spark | GitHub: muse-spark

Fazit

KW 16 markiert einen Wendepunkt: Zum ersten Mal schlägt ein Open-Source-Modell die proprietäre Spitze in einer kommerziell relevanten Disziplin. Zhipu, DeepSeek und Meta liefern gemeinsam eine Stack-Vision, die von Modell über Runtime bis Tooling auskommt — ohne API-Schlüssel eines großen US-Anbieters. Gleichzeitig zieht Anthropic die Zugbrücke hoch und reserviert seine stärksten Modelle für ausgewählte Partner.

Für europäische Unternehmen — und besonders solche mit Sovereign-AI-Mandaten — eröffnet das eine neue Realität: Frontier-Capabilities lassen sich jetzt lokal betreiben, auf eigenen GPUs, mit vollständiger Datenkontrolle. Der Preis für Souveränität ist damit zum ersten Mal konkurrenzfähig gegenüber dem Komfort der Cloud-APIs. Wer jetzt noch zögert, riskiert, in den nächsten Jahren von der falschen Seite der Open-Source-Welle erwischt zu werden.

Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.

AI News KW 16: GLM-5.1, Claude Mythos & Muse Spark

🔥 Top-Story: GLM-5.1 — 754B Open-Source-Modell schlägt GPT-5.4 im Coding

Closed Source unter Druck: Anthropic schränkt Claude Mythos ein

Neue Modelle & Releases

DeepSeek R2: Reasoning-Modell mit offenen Gewichten und Long-Horizon-Planning

OpenAI GPT-5.5 Preview: Fokus auf Agenten-Zuverlässigkeit

Community-Highlight: Meta Muse Spark — Agenten-Runtime für alle

Fazit

Tags

Teilen

Weitere Artikel

RAG-Pipeline: Praxisleitfaden für Unternehmen

Tech News KW 15: GitLab 18, K8s 1.36 & Euro-Office