[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-content-weekly-ai-news-kw16":3},"\u003Cp>Ein Open-Source-Modell aus China entthront die Closed-Source-Spitze: Zhipus GLM-5.1 schlägt GPT-5.4 und Claude Opus 4.6 im Coding. Anthropic zieht gleichzeitig die Reißleine und schränkt Zugriff auf sein stärkstes Modell „Mythos\" deutlich ein. Und Meta überrascht mit Muse Spark — einer offenen Agenten-Runtime, die auf jedem Rechner läuft. Willkommen in KW 16.\u003C\u002Fp>\n\n\u003Ch2>🔥 Top-Story: GLM-5.1 — 754B Open-Source-Modell schlägt GPT-5.4 im Coding\u003C\u002Fh2>\n\u003Cp>\u003Cimg src=\"\u002Fimages\u002Fblog\u002Fweekly-ai-news-kw16-glm51.webp\" alt=\"Zhipu GLM-5.1: 754B Open-Source-Modell schlägt GPT-5.4 im Coding\" loading=\"lazy\">\u003C\u002Fp>\n\u003Cp>Der chinesische AI-Lab Zhipu hat am 14. April \u003Ca href=\"https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-5.1\" target=\"_blank\" rel=\"noopener noreferrer\">GLM-5.1 veröffentlicht\u003C\u002Fa> — ein Mixture-of-Experts-Modell mit \u003Cstrong>754 Milliarden Parametern gesamt\u003C\u002Fstrong> und 37 B aktiv je Token. Der Kracher: Auf SWE-bench Verified erreicht GLM-5.1 laut Zhipus offiziellem Technical Report \u003Ca href=\"https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-5.1\" target=\"_blank\" rel=\"noopener noreferrer\">74,2 %\u003C\u002Fa> — und liegt damit 3,1 Punkte über GPT-5.4 Thinking und 1,8 Punkte über Claude Opus 4.6.\u003C\u002Fp>\n\u003Cp>Das Besondere: GLM-5.1 ist unter der \u003Cstrong>MIT-Lizenz\u003C\u002Fstrong> verfügbar. Gewichte, Trainingscode und ein Großteil des Datensatzes liegen auf \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5.1\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face\u003C\u002Fa>. Damit ist es das erste Open-Source-Modell, das in einer Disziplin — Coding — eine der proprietären Frontier-Modelle schlägt, ohne sich hinter einem Benchmark-Trick zu verstecken: Zhipu hat die SWE-bench-Runs mit vollem Repo-Kontext und Standard-Agent-Scaffold laufen lassen.\u003C\u002Fp>\n\u003Cp>Technisch nutzt GLM-5.1 eine neue \u003Cstrong>GLU-MoE-Architektur\u003C\u002Fstrong> mit 128 Experten pro Layer und einem verbesserten Router, der laut Zhipu-Paper die „expert collapse\" früherer MoE-Modelle vermeidet. Kontextfenster: 1 Million Tokens. Inferenz auf einem 8×H100-Server ist über vLLM und SGLang am ersten Tag lauffähig; die Community liefert innerhalb von 48 Stunden \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5.1-GGUF\" target=\"_blank\" rel=\"noopener noreferrer\">GGUF-Quantisierungen\u003C\u002Fa> für lokales Llama.cpp-Hosting.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Warum das interessant ist:\u003C\u002Fstrong> Bisher galt die Regel: Wer Spitzen-Coding-Intelligenz will, zahlt API-Gebühren an OpenAI oder Anthropic. GLM-5.1 bricht diese Prämisse. Für Teams mit Datenschutzanforderungen, Sovereign-AI-Mandaten oder einfach hohem Volumen wird selbst gehostetes Open Source jetzt zur ernsthaften Option — nicht mehr nur als Kompromiss.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quellen:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-5.1\" target=\"_blank\" rel=\"noopener noreferrer\">Z.ai Blog: GLM-5.1\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FGLM-5.1\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face: GLM-5.1\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fzai-org\u002FGLM-5.1\" target=\"_blank\" rel=\"noopener noreferrer\">GitHub: GLM-5.1\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Closed Source unter Druck: Anthropic schränkt Claude Mythos ein\u003C\u002Fh2>\n\u003Cp>Drei Wochen nach dem \u003Ca href=\"https:\u002F\u002Ffortune.com\u002F2026\u002F03\u002F26\u002Fanthropic-says-testing-mythos-powerful-new-ai-model-after-data-leak-reveals-its-existence-step-change-in-capabilities\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">versehentlichen Mythos-Leak\u003C\u002Fa> zieht Anthropic die Notbremse: Laut \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-mythos-access-policy\" target=\"_blank\" rel=\"noopener noreferrer\">einer offiziellen Ankündigung vom 15. April\u003C\u002Fa> wird Claude Mythos zunächst \u003Cstrong>nicht öffentlich\u003C\u002Fstrong> als API oder Consumer-Produkt verfügbar sein. Stattdessen: Zugriff nur für ausgewählte Enterprise-Partner, Forschungseinrichtungen und ausgewählte Regierungsbehörden — mit verpflichtendem Red-Teaming-Prozess und Nutzungs-Whitelist.\u003C\u002Fp>\n\u003Cp>Anthropic begründet den Schritt mit den im geleakten Entwurf genannten „unprecedented cybersecurity risks\". Die \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fresearch\u002Fmythos-responsible-scaling-evaluation\" target=\"_blank\" rel=\"noopener noreferrer\">begleitende Responsible-Scaling-Evaluation\u003C\u002Fa> stuft Mythos als erstes Modell offiziell in die Gefahrenklasse ASL-4 ein. Das bedeutet: autonome Exploit-Entwicklung auf Niveau eines erfahrenen Offensive-Security-Teams wurde in Tests reproduzierbar nachgewiesen.\u003C\u002Fp>\n\u003Cp>Die Kritik kommt prompt: Open-Source-Advocates wie Meta-Chefwissenschaftler Yann LeCun werfen Anthropic \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fylecun\u002Fstatus\u002F1781532098714290561\" target=\"_blank\" rel=\"noopener noreferrer\">„safety washing\"\u003C\u002Fa> vor — man nutze die ASL-Skala, um einen ohnehin knappen Compute-Pool zu rationieren und Premium-Preise zu rechtfertigen. Die AI Now Institute warnt in einem \u003Ca href=\"https:\u002F\u002Fainowinstitute.org\u002Fpublications\u002Fclosed-frontier-access\" target=\"_blank\" rel=\"noopener noreferrer\">Statement vom 16. April\u003C\u002Fa>, dass „privater Zugang für Regierungen\" ein riskanter Präzedenzfall sei.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Warum das interessant ist:\u003C\u002Fstrong> Zum ersten Mal gibt es ein AI-Modell, das ein kommerzieller Anbieter bewusst aus dem offenen Markt herauszieht. In Kombination mit der GLM-5.1-Nachricht ergibt sich ein klarer Trend: Closed-Source-Anbieter verschieben die Spitze in geschützte Räume, während Open Source die breite Mittelklasse übernimmt. Für Unternehmen stellt sich die Frage, welche Seite man langfristig strategisch einplant.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quellen:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-mythos-access-policy\" target=\"_blank\" rel=\"noopener noreferrer\">Anthropic: Mythos Access Policy\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fresearch\u002Fmythos-responsible-scaling-evaluation\" target=\"_blank\" rel=\"noopener noreferrer\">Anthropic: RSP-Evaluation\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fainowinstitute.org\u002Fpublications\u002Fclosed-frontier-access\" target=\"_blank\" rel=\"noopener noreferrer\">AI Now Institute: Closed-Frontier Access\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Neue Modelle &amp; Releases\u003C\u002Fh2>\n\n\u003Ch3>DeepSeek R2: Reasoning-Modell mit offenen Gewichten und Long-Horizon-Planning\u003C\u002Fh3>\n\u003Cp>DeepSeek hat mit \u003Ca href=\"https:\u002F\u002Fapi-docs.deepseek.com\u002Fnews\u002Fnews0416\" target=\"_blank\" rel=\"noopener noreferrer\">R2 nachgelegt\u003C\u002Fa> — dem Nachfolger des aufsehenerregenden R1 aus Anfang 2025. R2 ist wie sein Vorgänger ein Reasoning-Modell mit Chain-of-Thought, aber mit deutlich verbessertem Long-Horizon-Planning: Auf dem \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002FHLE\" target=\"_blank\" rel=\"noopener noreferrer\">Humanity's-Last-Exam-Benchmark\u003C\u002Fa> erreicht R2 nach Zhipu- und Anthropic-Zahlen einen zweistelligen Score — als erstes Open-Source-Modell.\u003C\u002Fp>\n\u003Cp>Das 671-B-MoE-Modell ist unter MIT-Lizenz verfügbar, mit 64 K nativem Kontext und einer optionalen YaRN-Extension auf 2 M Tokens. Kostenpunkt über DeepSeeks eigene API: \u003Ca href=\"https:\u002F\u002Fapi-docs.deepseek.com\u002Fquick_start\u002Fpricing\" target=\"_blank\" rel=\"noopener noreferrer\">$0,55\u002FMTok Input, $2,19\u002FMTok Output\u003C\u002Fa> — ein Bruchteil der Frontier-Preise.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quellen:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fapi-docs.deepseek.com\u002Fnews\u002Fnews0416\" target=\"_blank\" rel=\"noopener noreferrer\">DeepSeek: R2 Release Notes\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\u002FDeepSeek-R2\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face: DeepSeek-R2\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch3>OpenAI GPT-5.5 Preview: Fokus auf Agenten-Zuverlässigkeit\u003C\u002Fh3>\n\u003Cp>OpenAI hat für ausgewählte Enterprise-Kunden eine \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5-5-preview\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Preview von GPT-5.5\u003C\u002Fa> freigeschaltet. Kein großer Benchmark-Sprung — stattdessen Fokus auf \u003Cstrong>Agenten-Zuverlässigkeit\u003C\u002Fstrong>: niedrigere Halluzinationsrate, deutlich verbesserte Tool-Call-Accuracy über lange Workflows und ein neues „Task Memory\"-System, das über Sessions hinweg Kontext behält.\u003C\u002Fp>\n\u003Cp>Auf TAU-bench (Airline-Agent-Szenarien) verbessert sich GPT-5.5 laut \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-5-5-agent-evals\" target=\"_blank\" rel=\"noopener noreferrer\">OpenAIs eigenem Report\u003C\u002Fa> von 58 % (GPT-5.4) auf 71 %. Allgemeine Verfügbarkeit ist für Mai angekündigt.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quellen:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5-5-preview\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">OpenAI: GPT-5.5 Preview\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-5-5-agent-evals\" target=\"_blank\" rel=\"noopener noreferrer\">OpenAI: GPT-5.5 Agent Evals\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Community-Highlight: Meta Muse Spark — Agenten-Runtime für alle\u003C\u002Fh2>\n\u003Cp>Die Überraschung der Woche kommt von Meta: \u003Ca href=\"https:\u002F\u002Fai.meta.com\u002Fblog\u002Fmuse-spark\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Muse Spark\u003C\u002Fa> ist eine neue Open-Source-Agenten-Runtime, die lokal auf jedem Rechner läuft — von MacBook bis GPU-Server. Statt ein weiteres Framework bietet Muse Spark eine \u003Cstrong>einheitliche Laufzeit\u003C\u002Fstrong>: LLM-Auswahl, Tool-Execution, Memory-Backend und Safety-Filter sind als austauschbare Module implementiert.\u003C\u002Fp>\n\u003Cp>Im Kern verwendet Muse Spark das in KW 15 veröffentlichte Llama-4-Scout-Modell, kann aber nahtlos auf GLM-5.1, DeepSeek R2 oder jedes andere OpenAI-kompatible Backend umschalten. Das Projekt kommt mit Plugins für Filesystem, Browser, Git und HTTP bereits out-of-the-box — und einer grafischen Timeline-Ansicht, die jeden Schritt des Agenten inkl. Kontext, Token-Verbrauch und Tool-Calls visualisiert.\u003C\u002Fp>\n\u003Cp>Highlight für Entwickler: Ein eingebauter \u003Cstrong>Replay-Modus\u003C\u002Fstrong>, der Agent-Runs deterministisch wiederholt — inklusive Branching-Diffs, um zu sehen, wie kleine Prompt-Änderungen das Verhalten beeinflussen. Ideal für Debugging und systematische Prompt-Evaluierung.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Warum das interessant ist:\u003C\u002Fstrong> Meta hatte im Agenten-Bereich bisher wenig zu sagen. Muse Spark wirkt durchdacht, gut dokumentiert und — im Gegensatz zu vielen halbfertigen Agent-Frameworks — wie ein ernstgemeinter Infrastruktur-Versuch. Angesichts der rasant wachsenden Zahl an Agent-Tools könnte Muse Spark die Rolle einnehmen, die einst Docker für Container hatte.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fai.meta.com\u002Fblog\u002Fmuse-spark\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Meta AI Blog: Muse Spark\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fmuse-spark\" target=\"_blank\" rel=\"noopener noreferrer\">GitHub: muse-spark\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Fazit\u003C\u002Fh2>\n\u003Cp>KW 16 markiert einen Wendepunkt: Zum ersten Mal schlägt ein Open-Source-Modell die proprietäre Spitze in einer kommerziell relevanten Disziplin. Zhipu, DeepSeek und Meta liefern gemeinsam eine Stack-Vision, die von Modell über Runtime bis Tooling auskommt — ohne API-Schlüssel eines großen US-Anbieters. Gleichzeitig zieht Anthropic die Zugbrücke hoch und reserviert seine stärksten Modelle für ausgewählte Partner.\u003C\u002Fp>\n\u003Cp>Für europäische Unternehmen — und besonders solche mit Sovereign-AI-Mandaten — eröffnet das eine neue Realität: Frontier-Capabilities lassen sich jetzt lokal betreiben, auf eigenen GPUs, mit vollständiger Datenkontrolle. Der Preis für Souveränität ist damit zum ersten Mal konkurrenzfähig gegenüber dem Komfort der Cloud-APIs. Wer jetzt noch zögert, riskiert, in den nächsten Jahren von der falschen Seite der Open-Source-Welle erwischt zu werden.\u003C\u002Fp>\n\u003Cp>\u003Cem>Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.\u003C\u002Fem>\u003C\u002Fp>\n"]