Zurück zum Blog
12 min

Ich wurde Google Cloud Ambassador — Infrastructure: Was es in 2026 wirklich braucht

Ein ehrlicher Blick darauf, was es bedeutet, 2026 Google Cloud Ambassador — Infrastructure zu werden: die echten Kriterien, die Community-Arbeit und wie produktionsreife GCP-Erfahrung auf diesem Niveau wirklich aussieht.

google-cloudgcpkarrierecloud-infrastrukturdevops
Teil vonCloud →
Ich wurde Google Cloud Ambassador — Infrastructure: Was es in 2026 wirklich braucht
Inhalt

Die meisten denken, der Google Cloud Ambassador-Titel dreht sich um Zertifikate. Das stimmt nicht.

Seit 2022 besitze ich fünf Google Cloud Professional-Zertifizierungen. Ich habe die Diamond League in Cloud Skills Boost mit über 180.000 Punkten und 1.000+ praktischen Labs erreicht. Ich bin Google Product Expert. Ich habe 100+ technische Artikel veröffentlicht, die von Zehntausenden von Engineers gelesen wurden.

Das ist nicht der Grund, warum ich Ambassador wurde.

Der Titel kam durch etwas Schwieriger zu Messendes: kontinuierliche, produktionsreife Engineering-Arbeit, die andere Engineers tatsächlich nutzen konnten — kombiniert mit einer öffentlichen technischen Präsenz, die Google dazu bringt, dir zu vertrauen, sie zu repräsentieren.

Dieser Beitrag ist ein technischer Bericht darüber, wie diese Arbeit aussah. Nicht die Marketing-Version. Die echte.

Was das Google Cloud Ambassador — Infrastructure-Programm wirklich ist

Das Google Cloud Ambassador-Programm erkennt Praktiker an, die tiefgreifende Google Cloud-Expertise demonstrieren und aktiv zur Community beitragen. Es ist keine Selbstnominierung. Es ist kein Zertifizierungsprogramm. Die Auswahl basiert darauf, was du tatsächlich gebaut und veröffentlicht hast.

Der Infrastructure-Track umfasst die schwierigsten Teile des Cloud-Engineerings: Multi-Region-Plattformdesign, Kubernetes im Produktionsmaßstab, Netzwerksicherheit, Supply-Chain-Integrität, Cost-Architektur und zunehmend — KI-Infrastruktur. Das sind die Systeme, bei denen Fehlkonfiguration zu Ausfällen und Sicherheitslücken zu Datenpannen führt.

Die Messlatte ist nicht „ein GKE-Cluster deployed“. Die Messlatte ist: Hast du die Probleme gelöst, die keine Stack-Overflow-Antworten haben?

Die echten Kriterien: Worauf Google wirklich achtet

Es gibt keine öffentliche Bewertungsmatrix. Aber aus Community-Gesprächen und meiner eigenen Erfahrung heraus betrachtet die Auswahl konsistent drei Dimensionen.

Dimension 1: Produktionstiefe, die schwer zu faken ist

Jeder kann ein Lab absolvieren. Produktionstiefe bedeutet, dass du Systeme betrieben hast, bei denen Fehler echte Konsequenzen haben — finanziell, reputationsbezogen, regulatorisch.

Für mich bedeutete das:

  • Multi-regionale GKE-Cluster mit Fleet-basiertem Config-Management, wo Workload-Platzierung durch Policies gesteuert und Failover automatisch — nicht manuell — erfolgt
  • Terraform-verwaltete Infrastruktur über mehrere Projekte hinweg mit Shared VPCs, Private Google Access und Org-Level-Policy-Constraints
  • Zero-Trust-Netzwerkarchitektur, wo jeder Service-to-Service-Aufruf gegenseitig via Workload Identity Federation authentifiziert wird — keine statischen Service-Account-Schlüssel, niemals
  • Binary-Authorization-Pipelines, bei denen unsignierte Container-Images die Produktion nicht erreichen können, egal wer sie pusht
  • Cloud Armor WAF-Konfigurationen, die reale DDoS-Versuche und OWASP Top 10-Angriffe gegen produktive Kubernetes-Ingress-Endpunkte blockiert haben

Dieser letzte Punkt verdient einen eigenen Abschnitt.

Cloud Armor: Wie produktive WAF wirklich aussieht

Die meisten Engineers, die „Cloud Armor nutzen“, haben es mit Standardregeln aktiviert und es dabei belassen. Das ist keine Sicherheitsposition. Das ist ein Checkbox-Abhaken. Eine echte Cloud Armor-Konfiguration auf Ambassador-Niveau umfasst vier Dinge, die die meisten Teams überspringen:

Adaptive Protection, richtig getunt. Adaptive Protection nutzt Machine Learning, um Layer-7-DDoS-Angriffe zu erkennen und Blockierungsregeln vorzuschlagen oder automatisch anzuwenden. Die wichtigste Erkenntnis: Es ist kein Fire-and-Forget-Feature. Der Confidence-Threshold braucht Kalibrierung — zu niedrig generiert False Positives, die legitimen Traffic blockieren, zu hoch verpasst echte Angriffe. Es braucht Wochen der Beobachtung.

Rate Limiting, das wirklich funktioniert. Rate Limiting auf IP-Ebene wird trivial umgangen, indem Angriffe über Tausende IPs verteilt werden. Effektives Limiting nutzt Per-User-Limits basierend auf Request-Headers oder JWT-Claims, Regeln, die menschliches Browsing von automatisiertem Scraping unterscheiden, und die richtige Wahl zwischen THROTTLE und RATE_BASED_BAN — Banning erhöht die Angreiferkosten, Throttling bleibt für legitime User rücksetzbar.

OWASP Top 10 Regelsätze mit Override-Logik. Die vorkonfigurierten Regeln für SQL-Injection, XSS und File Inclusion generieren in der Produktion False Positives — besonders bei Apps mit komplexen JSON-Payloads. Der Produktionsansatz: im Preview-Modus aktivieren, Logs zwei Wochen beobachten, Exclusion-Regeln schreiben, dann in den Enforce-Modus wechseln. Überspringst du das, blockierst du legitime User innerhalb von Stunden nach dem Go-Live.

Edge-Security für GKE Ingress im globalen Maßstab. Cloud Armor an einen globalen externen HTTPS Load Balancer anzubinden setzt die WAF an Googles Netzwerk-Edge — sie absorbiert Angriffs-Volumen, bevor es deine Cluster-Nodes erreicht. Das Zusammenwirken von Backend-Services, URL-Maps und Security-Policies falsch zu machen schafft blinde Flecken, durch die ungeschützter Traffic deine Workloads erreicht.

Kubernetes-Sicherheit: Die Schichten, die die meisten Teams überspringen

Kubernetes auf GKE in 2026 zu betreiben bedeutet, ein Sicherheitsmodell mit mindestens acht verschiedenen Schichten zu navigieren. Die meisten Teams behandeln zwei oder drei. Ambassador-Level-Arbeit bedeutet, alle zu verstehen und bewusste Entscheidungen über jede einzelne zu treffen:

  • Node-Sicherheit — Shielded GKE-Nodes mit Secure Boot und vTPM, Container-Optimized OS ohne SSH, Workload Identity auf Node Pools (keine Node-Level-Credentials).
  • Netzwerk-Policy — Standard-GKE erlaubt die gesamte Pod-zu-Pod-Kommunikation; ein kompromittierter Pod erreicht alles. NetworkPolicy (oder Cilium mit eBPF-Durchsetzung) beschränkt Traffic auf deklarierte Pfade.
  • Pod-Sicherheit — Pod Security Admission im Enforce-Modus, Non-Root-Container, schreibgeschützte Root-Filesysteme, dropped Linux Capabilities, seccomp-Profile. Jede Lockerung ist eine dokumentierte Ausnahme.
  • Supply-Chain-Integrität — Binary Authorization mit Attestation. Images ohne gültige kryptografische Attestierung vom Scanner und der CI/CD-Pipeline werden bei der Admission abgelehnt, nicht markiert.
  • Runtime-Detection — Security Command Center mit Event und Container Threat Detection, in einen echten Incident-Response-Workflow geroutet — kein Dashboard, das niemand beobachtet.
  • Secrets-Management — Secret Manager mit automatischer Rotation, Workload-Identity-Bindung, Audit-Logging bei jedem Zugriff. Keine Credentials in Umgebungsvariablen oder ConfigMaps.
  • Admission ControlOPA/Gatekeeper oder Kyverno setzen erforderliche Labels, Resource-Limits, genehmigte Registries und das Verbot privilegierter Container durch — zur Admission-Zeit blockiert.
  • Cluster-Netzwerkisolierung — Private GKE-Cluster mit privaten Nodes, privater Control Plane, autorisierten Netzwerken und VPC Service Controls rund um die Cluster-API. In 2026 gibt es keine Rechtfertigung für einen öffentlichen GKE-API-Endpunkt in der Produktion.

Gemini und KI-Infrastruktur: Die nächste Grenze für Platform Engineers

Die interessantesten Infrastrukturprobleme in 2026 liegen nicht im traditionellen Cloud-Engineering. Sie liegen in der KI-Infrastruktur — und insbesondere darin, Gemini und andere Large Models zuverlässig, sicher und kosteneffizient im Produktionsmaßstab zu betreiben.

Vertex AI und Gemini in der Produktion

Gemini über die Vertex AI API zu nutzen ist unkompliziert. Es als Teil eines zuverlässigen Produktionssystems zu betreiben ist es nicht. Die Herausforderungen sind:

Quota und Rate Limits: Gemini-API-Quotas sind pro Projekt und pro Region. Produktionssysteme brauchen Quota-Planung, per-Service-Budget-Controls und Fallback-Logik, wenn die Quota erschöpft ist. Die Fallback-Strategie — Retry mit exponential Backoff, graceful Degradation oder Fail Fast — hängt vom Anwendungsfall ab.

Context-Window-Management: Gemini 1.5 Pro unterstützt ein 1M-Token-Kontextfenster. Aber 1M Tokens pro Request zu senden hat Kosten- und Latenz-Implikationen. Produktive RAG-Systeme brauchen intelligentes Chunking, Embedding-basiertes Retrieval und Context-Assembly, die Recall-Qualität gegen Token-Kosten abwägen.

Grounding mit Google Search und Vertex AI Search: Grounding reduziert Halluzinationen, indem es Modellantworten an abgerufenen Dokumenten verankert. In Enterprise-Kontexten gibt Grounding gegen interne Wissensdatenbanken via Vertex AI Search RAG ohne die Retrieval-Pipeline von Grund auf aufzubauen. Der Tradeoff: Du verlierst feinkörnige Kontrolle über die Retrieval-Logik.

Sichere KI-Pipelines auf GCP bauen

KI-Workloads führen neue Angriffsflächen ein, die traditionelle Sicherheitsmodelle nicht abdecken. Prompt Injection — wo bösartiger Inhalt in User-Input oder abgerufenen Dokumenten das Modellverhalten manipuliert — ist kein Netzwerksicherheitsproblem. Es erfordert Input-Validierung, Output-Filterung und Guardrails auf der Anwendungsschicht.

Die Infrastruktur-Antwort: LLM-Guardrails als separaten Service im Request-Pfad deployen. Inputs gegen einen Classifier validieren, bevor sie das Modell erreichen. Outputs auf PII, schädliche Inhalte und Off-Topic-Antworten filtern. Jeden Modell-Aufruf mit vollem Input/Output für Audit-Zwecke loggen — wobei zu beachten ist, dass dies erhebliche Storage- und Datenschutzverpflichtungen schafft.

MLOps auf Vertex AI Pipelines

Produktive ML ist keine Jupyter-Notebooks. Es sind reproduzierbare Training-Pipelines mit versionierten Datensätzen, getrackten Experimenten, validierten Modellen und automatisiertem Deployment mit Rollback-Fähigkeit.

Vertex AI Pipelines mit Kubeflow-Komponenten gibt eine serverlose Pipeline-Ausführungsumgebung, wo jeder Schritt in einem isolierten Container läuft, Inputs und Outputs in Google Cloud Storage und Artifact Registry versioniert sind und der gesamte Pipeline-Lauf auditierbar ist. Die Infrastruktur-Herausforderung: Pipeline-Komponenten zu entwerfen, die wiederverwendbar, isoliert testbar sind und Artefakte produzieren, die nachgelagerte Schritte vor dem Verbrauch validieren können.

Zero-Trust-Architektur: Jenseits des Buzzwords

Zero Trust ist einer der am meisten missbrauchten Begriffe in der Cloud-Sicherheit. In den meisten Organisationen bedeutet er „wir haben MFA hinzugefügt.“ Echte Zero-Trust-Architektur verändert das grundlegende Vertrauensmodell der Infrastruktur.

Workload Identity Federation über Clouds hinweg

Das klassische Problem: Die CI/CD-Pipeline läuft auf GitHub Actions (oder GitLab), muss aber auf GCP deployen. Die traditionelle Lösung ist ein Service-Account-Schlüssel, der als GitHub-Secret gespeichert wird. Das Problem: Langlebige Credentials, die exfiltriert werden können, die nicht ablaufen und die oft überprivilegiert sind, weil es einfacher ist, breiten Zugang zu gewähren als minimale erforderliche Berechtigungen aufzulisten.

Workload Identity Federation löst das, indem eine Vertrauensbeziehung zwischen dem externen Identity-Provider (GitHubs OIDC-Endpunkt) und GCPs IAM-System hergestellt wird. Die Pipeline authentifiziert sich mit einem kurzlebigen OIDC-Token, das GCP gegen eine temporäre GCP-Credential austauscht, die auf genau die Berechtigungen beschränkt ist, die für diese Pipeline benötigt werden. Keine gespeicherten Credentials. Keine Rotationslast. Jeder Credential-Zugriff geloggt.

VPC Service Controls

VPC Service Controls schaffen einen Sicherheitsperimeter rund um GCP-Services, der Datenexfiltration verhindert, selbst wenn Credentials kompromittiert sind. Ein Service-Perimeter rund um BigQuery bedeutet, dass selbst wenn ein Angreifer eine gültige BigQuery-Credential erlangt, er keine Daten in einen Bucket außerhalb des Perimeters exfiltrieren kann.

Die Nuance, die die meisten Engineers verpassen: VPC Service Controls unterbrechen legitime Cross-Project-Zugriffsmuster. Du musst explizit Access-Policies für jeden autorisierten Cross-Perimeter-Flow definieren — einschließlich deiner eigenen CI/CD-Pipelines, Monitoring-Agents und Backup-Systeme. Der Konfigurationsaufwand ist erheblich. Der Sicherheitsgewinn ist erheblich. Das zu überspringen, weil es komplex ist, ist der Weg, auf dem Datenexfiltrations-Angriffe gelingen.

FinOps: Die Infrastruktur-Kompetenz, über die niemand spricht

Cloud-Kostenoptimierung ist Infrastrukturarbeit. Sie erfordert dieselbe Tiefe des Verständnisses wie Security-Architektur — und hat direkte geschäftliche Auswirkungen, die Security-Arbeit oft nicht hat.

Die Muster, die die Zahlen wirklich bewegen:

Committed Use Discounts mit CUD Sharing

Ressourcenbasierte CUDs, die auf Organisationsebene committed und via CUD Sharing über Projekte hinweg geteilt werden, geben Discount-Coverage, ohne dass einzelne Teams ihre eigene Nutzung prognostizieren müssen. Das Infrastruktur-Team besitzt die Commitment-Strategie. Einzelne Produkt-Teams profitieren.

Spot-Instance-Orchestrierung für Batch-Workloads

GCP Spot VMs sind präemptierbar, aber 60–91% günstiger als On-Demand. Für ML-Training-Jobs, Data-Pipeline-Worker und nicht-latenzempfindliche Batch-Verarbeitung reduzieren Spot VMs mit Checkpointing die Infrastrukturkosten dramatisch. Der Engineering-Aufwand: Workloads so zu instrumentieren, dass sie State checkpointen und nach Präemption graceful fortsetzen.

GKE Node Auto-Provisioning mit Bin Packing

Node Auto-Provisioning erstellt Node Pools, die für die tatsächlich im Cluster laufenden Workloads optimiert sind — CPU/Speicher-Verhältnisse auf Pod-Resource-Requests abgestimmt. Kombiniert mit Vertical Pod Autoscaler-Empfehlungen (als Vorschläge angewendet, nicht automatisch, um Störungen zu vermeiden) eliminiert das das systematische Over-Provisioning, das die meisten Kubernetes-Rechnungen aufbläht.

In realen Implementierungen haben diese drei Muster kombiniert die Infrastrukturausgaben um 30–40% reduziert, ohne die Anwendungs-SLOs zu verändern. Die Arbeit ist nicht glamourös. Sie erfordert ein Verständnis der GCP-Abrechnung auf einem Niveau, das die meisten Engineers nie erreichen. Aber sie ist die Art von Ergebnis, die eine Organisation dazu bringt, dir ihre Infrastruktur anzuvertrauen.

Wie der Weg wirklich aussah

Der Ambassador-Weg dauerte vier Jahre kontinuierlicher Arbeit. Nicht vier Jahre Prüfungsvorbereitung — vier Jahre echte Systeme bauen, ehrlich über das schreiben, was funktioniert hat und was nicht, und konsistent in der Community präsent sein.

Die Meilensteine, die zählten, waren nicht die, die ich geplant hatte:

Ein Cloud Armor-Beitrag, den ich über False-Positive-Tuning geschrieben hatte, wurde in mehreren Security-Slack-Communities geteilt und generierte mehr eingehende Gespräche als alles andere, was ich veröffentlicht hatte. Nicht weil er das technisch Eindrucksvollste war, was ich geschrieben hatte — sondern weil er ein spezifisches, schmerzhaftes Problem löste, das viele Engineers hatten und das niemand klar dokumentiert hatte.

Eine Multi-Region-GKE-Architektur, die ich mit Terraform-Modul-Links veröffentlicht hatte, wurde dutzende Male geforkt. Engineers lasen sie nicht nur — sie nutzten sie als Ausgangspunkt für echte Deployments. Das ist der Unterschied zwischen Inhalten, die Expertise demonstrieren, und Inhalten, die Wert schaffen.

Die Google-Cloud-Teams bemerkten beides. Nicht weil ich sie als Beweis für irgendetwas eingereicht hatte. Sie haben bereits hingeschaut.

Der ehrliche Teil: Was die meisten Engineers verpassen

Ich habe über 1.000 Stunden mit der Vorbereitung auf Google-Cloud-Professional-Zertifizierungen verbracht — nicht passiv Videos schauend, sondern echte Architekturen durcharbeitend, Labs von Grund auf aufbauend und jedes Mal zur Dokumentation zurückgehend, wenn etwas keinen Sinn ergab. Der Professional Cloud Network Engineer und Professional Security Engineer haben Pass-Raten weit unter 50%. Alle fünf zu bestehen erforderte nachhaltigen, bewussten Aufwand über mehrere Jahre.

Aber die Zertifizierungen waren nur das Fundament. Die echte Beschleunigung kam aus der Enterprise-Arbeit — Produktionssysteme für Organisationen zu entwerfen und zu betreiben, bei denen Ausfallzeiten finanzielle und regulatorische Konsequenzen haben. Wenn du für eine Plattform verantwortlich bist, die echte Transaktionen verarbeitet, echte Kundendaten speichert und echte Compliance-Audits erfüllen muss, verändert sich dein Verständnis von GCP grundlegend. Du hörst auf, über Features nachzudenken und beginnst, über Failure-Modes, Blast-Radius und Recovery-Time-Objectives nachzudenken. Diese Kombination — strukturiertes Studium, Enterprise-Produktionsexposure und die Disziplin, weiter zu dokumentieren — ist wirklich selten. Die meisten Engineers stoppen bei einem oder zwei dieser drei.

Drei Dinge, die Ambassador-Level-Arbeit von kompetentem Cloud-Engineering trennen:

Du musst öffentlich falsch gelegen haben und gut damit umgegangen sein. Die glaubwürdigsten technischen Autoren sind die, die Fehler genauso klar dokumentieren wie Erfolge. Ich habe Post-Mortems über Architekturentscheidungen veröffentlicht, die sich als falsch herausstellten. Diese Beiträge generierten mehr Vertrauen als jeder “Best Practices”-Leitfaden, den ich geschrieben habe.

Tiefe über Breite, immer. Es ist besser, die definitive Ressource über Cloud Armor-Produktionskonfiguration zu sein als oberflächliche Beiträge über jeden GCP-Service zu haben. Googles Ambassador-Programm sucht keine Generalisten. Es sucht Praktiker, die tief genug gegangen sind, um die Probleme zu finden, die nur bei Skalierung auftreten.

Die Community-Arbeit muss echt sein. Ambassadors, die auf das Badge aus sind, tauchen in Communities auf, wenn sie etwas zu promoten haben. Die Engineers, die ausgewählt werden, sind die, die Fragen beantworten, Architekturvorschläge reviewen und Wissen teilen, ohne etwas zurückzuerwarten — konsequent, über Jahre.

Was sich nach dem Titel ändert

Die praktischen Vorteile: Frühzeitiger Zugang zu neuen GCP-Features vor der öffentlichen Veröffentlichung, direkte Kommunikationskanäle mit Google-Cloud-Engineering-Teams, Einladungen zu Google Cloud Next und Partner-Summits sowie ein Peer-Netzwerk von Praktikern, die auf demselben Niveau bauen.

Die wichtigere Veränderung: Verantwortung. Wenn du diesen Titel trägst, steigt die Qualitätsmesslatte für deine öffentliche technische Arbeit. Du bist nicht mehr nur ein Praktiker, der Erfahrungen teilt. Du repräsentierst einen Standard. Engineers sehen deine Arbeit anders. Dieses Gewicht ist real, und es ist angemessen.

Was ich jetzt baue

Drei Bereiche definieren meine aktuelle Infrastrukturarbeit:

KI-native Platform-Engineering auf GCP: Die Infrastrukturschicht für KI-Systeme bauen — Gemini-gestützte Anwendungen mit ordentlichen Sicherheitsgrenzen, Kostenkontrollen und operativer Instrumentierung. Die meiste KI-Infrastruktur in 2026 wird mit Klebeband zusammengehalten. Produktionsreife KI-Infrastruktur erfordert dieselbe Strenge wie produktionsreife transaktionale Systeme — plus neue Disziplinen rund um Model-Observability, Prompt-Audit-Trails und Inference-Cost-Management.

Automatisierte Compliance für regulierte Industrien im DACH-Raum: Policy-as-Code (OPA, Kyverno), kontinuierliches Control-Monitoring und KI-gestützte Audit-Evidenz-Generierung kombinieren, um Compliance zu einem kontinuierlichen Engineering-Prozess statt einer periodischen manuellen Übung zu machen. Die regulatorische Landschaft in Deutschland — NIS-2, DSGVO, DORA — schafft spezifische Anforderungen, die generische Cloud-Security-Frameworks nicht adressieren.

Offene Infrastruktur-Tooling: Zu Tools beitragen, die die oben genannten Muster für Teams zugänglich machen, die keine dedizierte Platform-Engineering-Funktion haben. Die Arbeit, die am meisten zählt, ist die, die über eine Organisation hinaus skaliert.

Wenn du an einem dieser Probleme arbeitest — oder über den Ambassador-Weg sprechen möchtest — melde dich.

Zusammenfassung

Google Cloud Ambassador — Infrastructure in 2026 zu werden erforderte vier Jahre Produktionsarbeit über den gesamten Stack der Cloud-Infrastruktur: Security-Architektur mit Cloud Armor und Zero Trust, Kubernetes-Härtung über acht Sicherheitsschichten, KI-Infrastruktur mit Gemini und Vertex AI, FinOps-Muster, die echte Zahlen bewegen, und konsistenter Community-Beitrag, der anderen Engineers half, echte Probleme zu lösen.

Die Zertifizierungen waren Grundvoraussetzung. Die Labs waren Übung. Die Arbeit, die zählte, waren die Produktionssysteme, die dokumentierten Fehler und die Community-Präsenz, die lange vor jeder Anerkennung aufrechterhalten wurde.

Die Messlatte ist hoch. Das sollte sie sein.