Apple Intelligence auf der WWDC26: Was App-Entwickler jetzt wirklich bauen können

Mit der WWDC26 hat Apple seine KI-Strategie für Entwickler deutlich geschärft. Was im Vorjahr noch als vorsichtiger Einstieg wirkte, ist jetzt ein ernstzunehmendes Werkzeug-Set: ein natives Framework für Foundation Models, multimodale On-Device-Verarbeitung, eine tiefere Verzahnung von App-Inhalten mit Siri und Spotlight und ein Geschäftsmodell, das gerade für kleinere Anbieter überraschend attraktiv ist.

Wir bei Hybrid Heroes entwickeln seit Jahren iOS Apps und integrieren KI in Kundenprodukte. Aus dieser doppelten Perspektive — App-Entwicklung und KI-Architektur — waren wir ganz besonders gespannt auf die neuen Möglichkeiten, die Apple bereitstellt. Drei Neuerungen halten wir für besonders relevant. Sie ändern, wie man KI-Funktionen in Apps plant, was sie kosten und welche Daten dabei das Gerät verlassen.

⚠️ Wichtig für die EU: Siri AI startet vorerst nicht auf iPhone und iPad

Bevor wir einsteigen, eine Einordnung, die gerade für uns in Europa zentral ist: Apple liefert den neuen, KI-gestützten Assistenten Siri AI in der EU nicht mit iOS 27 und iPadOS 27 aus — als Grund nennt das Unternehmen den Digital Markets Act (DMA). Einen Zeitplan gibt es nicht. Auf macOS 27 und visionOS 27 ist Siri AI in der EU dagegen verfügbar, da diese Plattformen nicht unter dieselben Gatekeeper-Pflichten fallen.

Für Entwickler hat das eine unmittelbare Konsequenz: In der EU ansässige Teams können die neuen Siri-AI-Funktionen für ihre Apps auf iOS, iPadOS und watchOS zunächst nicht testen oder nutzen. Was das für die hier beschriebenen Neuerungen bedeutet, ordnen wir bei jedem der drei Takes konkret ein. Vorweg so viel: Die beiden ersten Takes sind davon kaum betroffen, der dritte am stärksten.

Das Foundation Models Framework: ein Modell-Layer, drei Betriebsarten

Im Zentrum steht das Foundation Models Framework — eine native API, die direkten Zugriff auf dasselbe On-Device-Modell gibt, das auch Apple Intelligence antreibt. Entscheidend ist die Offenheit: Entwickler können über ein einheitliches Language Model-Protokoll mit jedem Modell arbeiten sei es mit Apples Foundation Models, mit Cloud-Modellen wie Claude oder Gemini oder mit jedem anderen Anbieter, der das Protokoll erfüllt.

Für die Architektur ist das ein wichtiger Schritt. Statt sich früh auf einen Anbieter festzulegen, lässt sich das Modell hinter einer stabilen Schnittstelle austauschen. Dynamic Profiles treiben das auf die Spitze: Modelle, Tools und Instructions lassen sich innerhalb einer laufenden Session im Betrieb wechseln. Eine App kann also etwa für eine einfache Klassifikation das lokale Modell nutzen und für eine komplexe Zusammenfassung nahtlos auf ein stärkeres Modell hochschalten.

Dazu kommt mit dem Evaluations Framework ein Werkzeug, das uns als KI-Agentur besonders freut: ein systematischer Weg, um zu verifizieren, dass sich KI-Funktionen unter wechselnden Bedingungen korrekt verhalten. Wer schon einmal ein LLM-Feature in Produktion gebracht hat, weiß, dass genau diese belastbare Evaluation den Unterschied zwischen einer beeindruckenden Demo und einem verlässlichen Produkt macht. Es ist bezeichnend, dass Apple sie zum festen Bestandteil des Entwickler-Workflows macht.

Take 1: Kostenlose Frontier-Modelle für kleine Anbieter sind ein echter Türöffner

Die aus unserer Sicht wirtschaftlich spannendste Ankündigung steht eher unscheinbar im Kleingedruckten: Wer im App Store Small Business Program eingeschrieben ist und dessen App weniger als 2 Millionen Firt-Time-Downloads insgesamt hat, kann die nächste Generation der Apple Foundation Models auf Private Cloud Compute ohne Cloud-API-Kosten nutzen.

Bislang gilt bei serverseitiger KI eine einfache Gleichung: Jeder Aufruf eines leistungsstarken Cloud-Modells — sei es GPT, Claude oder Gemini — kostet pro Token. Für ein Startup mit wachsender Nutzerbasis sind das laufende, mit der Nutzung skalierende Kosten. Genau dieser Posten fällt hier weg. Apple stellt ein Cloud-gehostetes, leistungsstarkes Modell bereit und für die anvisierte Zielgruppe kostenlos.

Der zweite, oft übersehene Vorteil ist Private Cloud Compute selbst. Apples Architektur ist darauf ausgelegt, dass serverseitige Verarbeitung dieselben Datenschutzversprechen einhält wie die On-Device-Verarbeitung: Daten werden nicht gespeichert, nicht für Training verwendet und sind selbst für Apple nicht zugänglich. Für datensensible Anwendungsfälle ist das wichtiges Argument für die Apple-Lösung.

Für Startups und kleinere Unternehmen ist das ein echter Türöffner. Wer eine KI-Funktion bauen will, aber die laufenden Inferenzkosten scheut, kann auf iOS jetzt ohne variable Modellkosten starten und sich erst mit dem Erfolg der App Gedanken über Skalierung und Anbieter-Strategie machen. Die Eintrittsschwelle für ambitionierte KI-Features sinkt damit spürbar und das ist genau die Art von Hebel, der über die ein oder andere Investitionsentscheidung mitentscheidet.

Wichtig zur Einordnung: Die kostenlose Nutzung ist an das Small Business Program und die Download-Grenze gebunden. Wer darüber hinauswächst oder Modelle anderer Anbieter braucht, landet wieder bei einer normalen Kostenrechnung.

Das Foundation Models Framework, das On-Device-Modell und der Zugang zu Private Cloud Compute sind Entwickler-Schnittstellen und nicht der Siri-Assistent. wir gehen davon aus, dass sie nicht zu den Funktionen gehören, die Apple für die EU zurückhält.

Take 2: Multimodale On-Device-Modelle

Die zweite große Neuerung ist die Multimodalität der On-Device-Modelle. Prompts können jetzt Bilder zusammen mit Text enthalten, sodass die App über visuelle Inhalte „nachdenken" kann. Zusätzlich stehen Werkzeuge des Vision-Frameworks wie etwa OCR und Barcode-Reader bereit, die das Modell direkt aufrufen kann, und das alles lokal auf dem Gerät.

Der entscheidende Punkt ist nicht, dass ein Modell Bilder lesen kann. Das können Cloud-Modelle längst. Der Unterschied ist, dass es hier ohne Netzwerkverbindung, ohne Latenz und ohne dass ein einziges Pixel das Gerät verlässt, geschieht. Das eröffnet eine ganze Reihe konkreter Anwendungsfälle:

Dokumentenerfassung direkt am Gerät. Ein Foto einer Rechnung, eines Vertrags oder eines Formulars kann lokal in strukturierte Daten überführt werden. In unserem vorherigen Beitrag zur KI-gestützten Dokumentenverarbeitung haben wir gezeigt, dass multimodale Sprachmodelle die Extraktion ebenso gut beherrschen wie spezialisierte OCR-Pipelines. Mit On-Device-Multimodalität wird genau dieser Ansatz datenschutzfreundlich und offline-fähig: Gerade bei sensiblen Unterlagen ist es ein starkes Verkaufsargument, wenn die Verarbeitung das Telefon nie verlässt.

Visuelle Assistenz im Alltag. Eine Pflanzen-App, die anhand eines Fotos Art und Pflegehinweise bestimmt. Eine Werkstatt-App, die ein Typenschild oder einen Fehlercode per Barcode erfasst und direkt den passenden Wartungsschritt vorschlägt. Eine Reise-App, die ein fremdsprachiges Schild fotografiert, den Text per OCR extrahiert und einordnet.

Barrierefreiheit. Eine App, die Nutzerinnen mit Sehbehinderung beschreibt, was die Kamera gerade erfasst — Produktetiketten, Hinweisschilder, Speisekarten — ohne dass diese sehr persönlichen Bildinhalte in irgendeine Cloud wandern.

Intelligente Vorqualifizierung. Im Kundenservice kann eine App ein hochgeladenes Schadensfoto lokal vorab einordnen, bevor überhaupt eine teurere serverseitige Analyse oder ein menschlicher Bearbeiter ins Spiel kommt.

Das verschiebt die Architektur-Frage von „Cloud oder gar nicht" hin zu einer feineren Abstufung: Was lässt sich kostenlos, schnell und privat lokal erledigen und wann lohnt sich der Sprung in die Cloud? Diese Abstufung sauber zu treffen, ist genau die Designarbeit, die über die Qualität eines KI-Features entscheidet.

Und die EU? Die hier skizzierten Use Cases bauen auf dem Foundation Models Framework mit eigenen, multimodalen Modellaufrufen und den Vision-Werkzeugen — also App-Logik, die nicht vom Siri-Assistenten abhängt. Sie funktionieren damit auch in der EU. Aufpassen sollte man bei einer Abgrenzung: Die systemseitige „Visual Intelligence"-Erfahrung gehört zu den Funktionen, die Apple in der EU auf iPhone und iPad zurückhält. Wer visuelle Intelligenz braucht, baut sie für EU-Nutzer also besser über einen eigenen Foundation-Models-Call als über das System-Feature, was ohnehin mehr Kontrolle über Verhalten und Datenfluss gibt.

Take 3: App Intents als Brücke zwischen RAG und dem System

Die dritte Neuerung wirkt auf den ersten Blick technisch, ist aber strategisch ebenfalls sehr spannend. Das App Intents Framework ist Apples Weg, App-Inhalte und -Funktionen für Siri und Apple Intelligence verständlich zu machen. Der entscheidende Mechanismus: Entity-Schemas tragen die Inhalte einer App in den semantischen Spotlight-Index ein mit Verständnis für den persönlichen Kontext und Verweis zurück zur App. Über Intent-Schemas können Nutzer dann per natürlicher Sprache mit diesen Inhalten interagieren.

Hier lohnt es sich, die Brücke zu einem Konzept zu schlagen, das wir aus unserer KI-Arbeit gut kennen: Retrieval-Augmented Generation (RAG). Bei RAG geht es im Kern darum, einem Sprachmodell die richtigen, proprietären Inhalte im richtigen Moment als Kontext bereitzustellen statt das Modell mit diesen Daten zu trainieren. Das Modell „weiß" nichts über die Daten, es bekommt sie zum Zeitpunkt der Anfrage gereicht.

Genau dieses Muster bildet Apple jetzt auf Systemebene ab. Wenn eine App ihre Inhalte über Entity-Schemas in den semantischen Spotlight-Index einspeist, stellt sie dem KI-System des Geräts ihre proprietären Daten als durchsuchbaren, semantisch verstehbaren Kontext zur Verfügung. Apples eigener WWDC26-Vortrag spricht hier von „LLM search using Core Spotlight" — also genau dem Retrieval-Schritt, der das Herzstück jeder RAG-Architektur bildet. Die App liefert das Wissen, das System liefert das Sprachmodell und die natürlichsprachliche Schnittstelle.

Für die Praxis heißt das: Eine App muss nicht mehr ihren eigenen RAG-Stack bauen, um Nutzern eine intelligente, kontextbewusste Suche über die eigenen Inhalte zu bieten. Sie kann ihre Daten dem System anvertrauen und von Siris Sprachverständnis profitieren — inklusive automatischer Verbesserungen und neuer Sprachen, ohne eigenen Code-Aufwand. Die neue View Annotations API ergänzt das um Bildschirm-Bewusstsein: Nutzer können sich konversationell auf das beziehen, was gerade vor ihnen auf dem Display ist.

Das ist eine andere Philosophie als ein selbst betriebenes RAG-System und beides hat seine Berechtigung. Wer volle Kontrolle über Retrieval-Logik, Ranking und Modellwahl braucht oder plattformübergreifend dieselbe Wissensbasis bedienen muss, baut weiterhin eine eigene RAG-Pipeline, wie wir sie in Kundenprojekten umsetzen. Wer hingegen nativ und mit minimalem Aufwand seine App-Inhalte intelligent durchsuchbar machen will, bekommt mit App Intents und Spotlight ein erstaunlich mächtiges, systemintegriertes Pendant. Die interessante Designfrage lautet künftig: systemeigenes Retrieval über Spotlight, eigene RAG-Pipeline — oder eine Kombination aus beidem?

Und die EU? Die Möglichkeiten sind am stärksten betroffen und genau deshalb interessant. Die konversationelle, natürlichsprachliche Schicht, die diesen Ansatz trägt — das Sprachverständnis von Siri AI samt der „LLM search using Core Spotlight" — ist exakt das, was Apple in der EU auf iPhone und iPad zunächst zurückhält. EU-Entwickler können diese Siri-Integration auf iOS und iPadOS aktuell nicht einmal testen. Drei Schlussfolgerungen ziehen wir daraus:

Auf macOS 27 und visionOS 27 ist Siri AI auch in der EU verfügbar. Für Mac- und Vision-Pro-Apps lässt sich die systemnative Variante also schon heute für EU-Nutzer umsetzen.
Für iOS und iPadOS in der EU ist die eigene RAG-Pipeline der verlässliche Weg. Statt auf den System-Assistenten zu warten, stellt ein eigener Retrieval-Stack die intelligente Suche über proprietäre Inhalte plattform- und assistentenunabhängig bereit und mit voller Kontrolle über Datenfluss und Datenschutz. Genau das ist unser Tagesgeschäft.
Wer beides will, baut die App-Intents-Schemas trotzdem schon ein. Sie funktionieren für Shortcuts und die klassische Spotlight-Indexierung weiterhin und sind startklar, sobald Siri AI in der EU verfügbar wird.

Was das für App-Projekte konkret bedeutet

Über die einzelnen Features hinaus zeichnet sich ein Muster ab. Apple senkt die Einstiegshürden für KI in Apps deutlich sowohl bei Kosten (kostenlose Foundation Models für kleine Anbieter), als auch bei Datenschutz (On-Device-Multimodalität und Private Cloud Compute) und bei Integrationsaufwand (systemeigenes Retrieval über App Intents und Spotlight). Für Produktteams verschiebt das die Frage von „Können wir uns ein KI-Feature leisten?" hin zu „Welche KI-Funktion stiftet für unsere Nutzer den größten Wert?"

Gleichzeitig gilt: Die Werkzeuge sind mächtig, aber die Architekturentscheidungen werden dadurch nicht einfacher, sondern reichhaltiger. On-Device oder Cloud? Apples Modelle oder ein eigener Anbieter über das Language Model-Protokoll? Systemeigenes Spotlight-Retrieval oder eine eigene RAG-Pipeline? Diese Abwägungen lassen sich nicht pauschal beantworten. Sie hängen von Datensensibilität, Volumen, Plattform-Strategie und Nutzererwartung ab. Und sie sollten, wie immer in der KI-Entwicklung, auf belastbaren Messungen beruhen und nicht auf Annahmen.

Für Teams mit europäischer Nutzerbasis kommt eine weitere Dimension hinzu: die regulatorische. Solange Siri AI auf iPhone und iPad in der EU nicht verfügbar ist, sind systemabhängige Features ein Risiko. Der robustere Weg ist eine KI-Architektur, die ihre Intelligenz selbst mitbringt und das System nutzt, wo es verfügbar ist. Diese Unabhängigkeit ist kein Notnagel, sondern gute Architektur: Sie macht Produkte plattformübergreifend tragfähig und gegen regulatorische Verschiebungen widerstandsfähig.

Fazit

Die WWDC26 macht Apple Intelligence von einem System-Feature zu einer ernstzunehmenden Entwickler-Plattform. Besonders für Startups und kleinere Anbieter eröffnet die kostenlose Nutzung der Foundation Models auf Private Cloud Compute neue Möglichkeiten. Die multimodalen On-Device-Modelle bringen KI dorthin, wo Datenschutz und Geschwindigkeit zählen. Und die Verzahnung von App Intents mit dem semantischen Spotlight-Index macht das, was wir als RAG kennen, systemnativ verfügbar - auf macOS und visionOS auch für EU-Nutzer.

Als KI-Agentur, die zugleich tief in der App-Entwicklung verwurzelt ist, sehen wir hier einen idealen Schnittpunkt unserer Kompetenzen: native Apple-Plattform-Expertise trifft auf KI-Architektur. Wenn Sie überlegen, welche dieser Neuerungen für Ihr Produkt den größten Hebel bietet — ob kostenlose On-Device-Intelligenz, datenschutzfreundliche Dokumentenverarbeitung oder eine intelligente, kontextbewusste Suche über Ihre App-Inhalte, die unabhängig von der EU-Verfügbarkeit von Siri AI funktioniert — sprechen Sie uns an. Wir helfen Ihnen, aus den Möglichkeiten die richtige Architektur für Ihren Anwendungsfall zu machen.

Über Hybrid Heroes
Hybrid Heroes entwickelt seit 2015 hoch interaktive Apps und digitale Produkte für Konzerne, Mittelstand, Universitäten und Startups. Seit 2024 beraten und entwickeln wir KI-gestützte Anwendungen — mit Fokus auf technologische Exzellenz, nutzerzentriertes Design und regulatorische Sorgfalt.

Apple Intelligence auf der WWDC26: Was App-Entwickler jetzt wirklich bauen können

Das Foundation Models Framework: ein Modell-Layer, drei Betriebsarten

Take 1: Kostenlose Frontier-Modelle für kleine Anbieter sind ein echter Türöffner

Take 2: Multimodale On-Device-Modelle

Take 3: App Intents als Brücke zwischen RAG und dem System

Was das für App-Projekte konkret bedeutet

Fazit

Read next

Einführung Cross-Platform Entwicklung: Vor- und Nachteile von Cordova, NativeScript, React Native, Xamarin, etc

Wie KI die App-Entwicklung in drei Stufen verändert

So erstellst du eine KI-Chat-App mit React Native und Azure AI Studio