10 Minuten
Forscher haben ein neues KI-System entwickelt, das autonome Fahrzeuge über das bloße Erkennen von Fußgängern hinausführt und stattdessen deren nächste Handlungen vorhersagt.
Ein Team der Texas A&M University und des Korea Advanced Institute of Science and Technology hat OmniPredict vorgestellt, ein künstliches Intelligenzmodell, das über reine Objekterkennung hinausgeht und menschliches Verhalten in Echtzeit prognostiziert. Durch die Kombination visueller Daten mit kontextuellen Hinweisen reagiert OmniPredict nicht nur auf die Bewegung einer Person – das System schlussfolgert auch mögliche nächste Schritte. Erste Tests zeigen eine hohe Trefferquote, was einen neuen Ansatz für sicherere und intuitivere Systeme des autonomen Fahrens in komplexen urbanen Umgebungen nahelegt. Solche prädiktiven Systeme zielen darauf ab, Verkehrssicherheit, Fußgängerprognose und fahrzeuginterne Entscheidungsprozesse miteinander zu verknüpfen, um Risiken frühzeitiger zu erkennen und zu minimieren.
Why anticipation matters for self-driving safety
Traditionelle Systeme für autonomes Fahren stützen sich stark auf Computer Vision: Kameras erkennen einen Fußgänger, LiDAR liefert Entfernungsinformationen, und das Fahrzeug reagiert. Stadtstraßen sind jedoch unordentliche, dynamische Umgebungen. Fußgänger bewegen sich oft unvorhersehbar – sie zögern, verändern den Blickwinkel oder treten plötzlich hinter Hindernissen hervor. Wenn ein automatisiertes System nur Bewegung registriert, kann es zu spät sein, eine gefährliche Situation zu verhindern. Vorhersagen über Absicht und Handlungszeitrahmen sind deshalb für präventive Sicherheitsstrategien zentral.
OmniPredict führt eine Ebene des Verhaltensschlusses ein. Durch eine Multimodale Large Language Model-Architektur (MLLM) kombiniert das System Bilder, Bounding-Box-Informationen, Nahaufnahmen und Fahrzeugtelemetrie, um Intentionen abzuleiten – zum Beispiel, ob jemand am Bordstein gleich die Straße überqueren will, auf dem Gehweg bleibt oder hinter einem Objekt verdeckt ist. Statt einer binären Frage „Ist dort ein Fußgänger?“ bewertet OmniPredict wahrscheinliche Szenarien und deren zeitliche Einordnung, sodass ein Fahrzeug Geschwindigkeit oder Fahrbahn früher und feiner anpassen kann. Diese Fähigkeit verbessert nicht nur die Reaktionszeit, sondern erlaubt auch differenziertere Steuerungsstrategien, die Komfort und Sicherheit vereinen.
„Städte sind unberechenbar. Fußgänger können unberechenbar sein“, sagte Dr. Srinkanth Saripalli, leitender Forscher des Projekts und Direktor des Center for Autonomous Vehicles and Sensor Systems. „Unser neues Modell gibt einen Ausblick auf eine Zukunft, in der Maschinen nicht nur sehen, was passiert, sondern auch vorwegnehmen, was Menschen voraussichtlich tun werden.“ Diese Prognosefähigkeit kann dazu beitragen, Unfälle zu reduzieren, Verkehrssituationen flüssiger zu gestalten und das Vertrauen in autonome Systeme langfristig zu stärken.

Dr. Srinkanth Saripalli und das Forschungsteam der Texas A&M University mit dem neuen Durchbruch: einem KI-System zur Fußgängerprognose.
How OmniPredict works: multimodal reasoning at the curb
Kernstück von OmniPredict sind multimodale Reasoning-Techniken, wie sie moderne Chatbots und Bildanalysesysteme nutzen, hier jedoch auf Verhaltensprognosen ausgerichtet. Das Modell verarbeitet eine vielschichtige Eingabemischung: niedrig- und hochauflösende Szenenbilder, zugeschnittene Nahaufnahmen von Fußgängern, Bounding-Boxen, die Personen über mehrere Frames verfolgen, sowie Fahrzeugspeed und weitere Telemetrie. Aus diesen Daten klassifiziert es Verhalten in vier Hauptkategorien – Überqueren (crossing), Verdeckung (occlusion), Aktionen (actions) und Blickrichtung (gaze) – und ordnet Wahrscheinlichkeiten für kurzfristige Ergebnisse zu. Diese Kategorien sind so gewählt, dass sie sowohl für kurzfristige Risikoabschätzungen als auch für mittelfristige Planungsentscheidungen nutzbar sind.
Die Architektur ermöglicht zwei wichtige Fähigkeiten. Erstens verallgemeinert das Modell über Kontexte hinweg: Es kann Erkenntnisse aus einer Straßenumgebung auf eine andere übertragen, ohne für jede neue Szene umfassend nachtrainiert werden zu müssen. Diese Domänenrobustheit reduziert die Notwendigkeit umfangreicher, kontext-spezifischer Datensätze und beschleunigt die Skalierung auf unterschiedliche städtische Szenarien. Zweitens integriert OmniPredict Hinweise, die Menschen intuitiv nutzen – Körperorientierung, Kopfneigung, Zögern und Umgebungsbedingungen – und übersetzt diese in handlungsrelevante Vorhersagen für das Fahrzeugkontrollsystem. Dazu gehören probabilistische Zeitfenster für ein mögliches Überqueren, Unsicherheitsmaße und Empfehlungen für konservative Fahrmanöver.
Technisch betrachtet nutzt das System Verkettungen von visuellen Embeddings, temporelle Tracking-Features und Kontextvektoren (z. B. Gehwegbreite, Verkehrsdichte), die in einem multimodalen Transformer-basierten Back-end zusammengeführt werden. Eine nachgelagerte Entscheidungs- und Unsicherheitskomponente quantifiziert Konfidenzintervalle, sodass Kontrollebenen im Fahrzeug – von sanftem Bremsen bis zu Spurwechseln – situationsabhängig und sicher umgesetzt werden können. Solche Unsicherheitsabschätzungen sind entscheidend, um Übervertrauen in einzelne Vorhersagen zu vermeiden und konservative Sicherheitsrichtlinien zu gewährleisten.

Ein Überblick über OmniPredict: Ein GPT-4o-gestütztes System, das Szenenbilder, Nahaufnahmen, Bounding-Boxen und Fahrzeuggeschwindigkeit kombiniert, um zu verstehen, was Fußgänger als Nächstes tun könnten. Durch die Analyse dieser reichhaltigen Eingabemischung sortiert das Modell Verhalten in vier Schlüsselkategorien—Überqueren, Verdeckung, Aktionen und Blick—um intelligentere, sicherere Prognosen zu erstellen. Credit: Dr. Srinkanth Saripalli Texas A&M University College of Engineering. https://doi.org/10.1016/j.compeleceng.2025.110741
Testing the model: benchmarks and performance
Das Forschungsteam bewertete OmniPredict anhand anspruchsvoller Datensätze zum Fußgängerverhalten wie JAAD und WiDEVIEW, die reale Variationen simulieren: überfüllte Gehwege, teilweise Verdeckung hinter geparkten Fahrzeugen und Personen, die vor dem Gehen zum Fahrzeug blicken. Auffällig ist, dass OmniPredict auf diesen Benchmarks eine Vorhersagegenauigkeit von etwa 67 % erreichte – circa 10 % höher als führende, rein visionbasierte Modelle – und das ohne aufgabenspezifisches Pretraining. Solche Verbesserungen resultieren aus der Integration kontextueller Signale und der Nutzung temporaler Muster, nicht nur aus Einzelbild-Detektionen.
Über die reine Genauigkeit hinaus zeigte das Modell kürzere Reaktionslatenzen und stärkere Generalisierung über verschiedene Straßenkontexte hinweg. Als die Forscher kontextuelle Komplikationen hinzufügten – eine teilweise verdeckte Person, eine abrupte Kopfbewegung oder plötzlicher Wetterumschwung – blieb OmniPredict leistungsfähig. Diese Eigenschaften sind für den realen Einsatz entscheidend, da seltene Ereignisse und Edge-Cases oft die größten Herausforderungen für autonome Systeme darstellen. Zudem wurden Robustheitstests gegen Adversarial-Noise und moderate Bildstörungen durchgeführt, um die Stabilität unter suboptimalen Sensorbedingungen zu prüfen.
In Messungen zur Systemlatenz beeinflusse die Vorhersagekomponente die Kontrollschleife nur moderat: Die Architektur ist darauf ausgelegt, präventive Hinweise früh zu liefern, ohne die Kontrolle in kritischen Millisekunden-Schritten zu verzögern. Kombiniert mit konservativen Steuerungsrichtlinien reduziert OmniPredict so potenzielle Fehlentscheidungen und verbessert die Sicherheit bei komplexen, urbanen Fahrmanövern. „Es öffnet Türen für sichereren Betrieb autonomer Fahrzeuge, weniger fußgängerbezogene Zwischenfälle und einen Wandel vom Reagieren zur proaktiven Gefahrenvermeidung“, sagte Saripalli.
From crosswalks to emergency operations: broader implications
Die Auswirkungen reichen über Pkw hinaus. OmniPredicts Fähigkeit, mikromotorische Ausdrucksformen von Bewegung zu lesen – Haltungsänderungen, Zögern, Blickverschiebungen und Stressanzeichen – könnte in der Notfallrettung, militärischer Logistik oder im Crowd-Safety-Monitoring Anwendung finden. Für Ersthelfer in chaotischen Einsatzszenen kann eine KI, die wahrscheinliche menschliche Handlungen hervorhebt, die Lagewahrnehmung verbessern und lebensrettende Entscheidungen beschleunigen. In Logistikszenarien oder an Einsatzorten könnte eine prädiktive Ebene helfen, Risiken bei Zugängen und Evakuierungen zu minimieren.
„Wir öffnen die Tür für spannende Anwendungen“, fügte Saripalli hinzu. „Beispielsweise könnte die Möglichkeit, dass eine Maschine fähig ist, bedrohliche Hinweise bei einer Person zu erkennen, erkennen und mögliche Folgen vorherzusagen, weitreichende Implikationen haben.“ Solche Fähigkeiten müssen jedoch verantwortungsvoll geregelt und in einen ethischen Rahmen eingebettet werden, um Missbrauch zu vermeiden. Die Forscher betonen, dass die Technologie als Assistenzinstrument und nicht als Ersatz für menschliche Entscheidungsfindung gedacht ist.
Wichtig ist, dass das Forschungsteam OmniPredict als ein Ergänzungswerkzeug und nicht als Ersatz für Menschen positioniert. Ziel ist es, Fahrer, Operatoren und automatisierte Systeme mit einer zusätzlichen Vorhersehbarkeitsschicht zu unterstützen, die menschliches Urteilsvermögen und Kontrolle ergänzt. In vielen realen Szenarien bleibt menschliche Aufsicht unverzichtbar; prädiktive Systeme sollen Entscheidungen informieren, aber nicht vollständig automatisieren, sofern die Unsicherheit hoch bleibt.
Technical hurdles and ethical considerations
Trotz vielversprechender Ergebnisse ist OmniPredict weiterhin ein Forschungsprototyp. Zentrale Hürden umfassen die Gewährleistung der Zuverlässigkeit über diverse Bevölkerungsgruppen und Umgebungen hinweg, die Behebung von Verzerrungen in Trainingsdaten und die sichere Integration von Prognoseergebnissen in Fahrzeugregelkreise. Übermäßiges Vertrauen in eine Vorhersage kann gefährlich sein; ein System muss Unsicherheit quantifizieren und bei hoher Ambiguität zu konservativen Maßnahmen tendieren. Technisch bedeutet das, robuste Kalibrierungstechniken, Unsicherheitsabschätzungen (z. B. Bayesianische Methoden oder Monte-Carlo-Dropout) und verifizierbare Sicherheitsziele zu implementieren.
Ethik- und Datenschutzfragen treten ebenfalls auf, sobald Systeme Absichten ableiten. Wie werden Daten gespeichert? Wer hat Zugriff auf Vorhersagen? Und wie verhindern Designer Profiling oder Fehlklassifikationen, die besonders verletzliche Gruppen benachteiligen? Diese Fragen beeinflussen die realweltliche Akzeptanz ebenso stark wie die technische Performance. Transparente Datenrichtlinien, erklärbare Modelle und unabhängige Audits sind notwendig, um Vertrauen zu schaffen und rechtskonforme Anwendungen zu ermöglichen.
Regulatorische Aspekte spielen eine große Rolle: Zulassungsbehörden verlangen nachvollziehbare Sicherheitsnachweise und Nachweise zur Fairness. Das bedeutet, dass Entwickler nicht nur technische Benchmarks erfüllen müssen, sondern auch dokumentieren, wie das System mit Unsicherheit umgeht, welche Datenbasis genutzt wurde und welche Maßnahmen gegen Bias implementiert sind. Öffentlichkeitsarbeit und Stakeholder-Engagement sind dabei ebenso wichtig, um gesellschaftliche Bedenken frühzeitig zu adressieren.
Expert Insight
„Prediction is the missing link between perception and prudent action in autonomous systems,“ sagte Elena Rivera, eine fiktive, aber repräsentative Ingenieurin für autonome Systeme. „OmniPredict’s multimodal reasoning ist ein bedeutender Schritt: Es spiegelt wider, wie Menschen Blick, Haltung und Kontext kombinieren, um blitzschnelle Entscheidungen zu treffen. Die Herausforderung besteht nun darin, diese Vorhersagen mit konservativen Steuerungsrichtlinien zu verbinden, sodass Sicherheit stets oberste Priorität hat.“
Rivera betont, dass die technische Integration allein nicht ausreicht; es bedarf klarer operationaler Richtlinien, Schulungsprogramme für Betreiber und standardisierter Testszenarien, die Edge-Cases gezielt prüfen. Nur so kann die prädiktive Autonomie verlässlich in realen Urbanumgebungen funktionieren.
What comes next for predictive autonomy?
Zukünftige Arbeit wird sich wahrscheinlich auf eine engere Integration mit Fahrzeugplanungssystemen, umfangreiche Feldtests in unterschiedlichen urbanen Umgebungen und interkulturelle Tests konzentrieren, um sicherzustellen, dass das Modell Gesten und Blickverhalten populationsübergreifend konsistent interpretiert. Cross-kulturelle Unterschiede in nonverbalen Signalen sind ein bekannter Risikofaktor für Übertragbarkeit und müssen gezielt evaluiert werden, bevor eine breite Einführung erfolgt.
Die Kombination von OmniPredict mit weiteren Sensormodalitäten – etwa Wärmebildkameras, verbesserter Radarfusion oder Infrarot – könnte die Unschärfe bei schlechten Sichtverhältnissen weiter reduzieren. Ebenso versprechen Simulationen in hochrealistischen digitalen Zwilling-Umgebungen die Möglichkeit, seltene, aber kritische Szenarien zu trainieren und zu validieren, ohne reale Risiken einzugehen. In der Praxis sind hybride Evaluationspipelines aus Simulation, geschützten Teststrecken und kontrollierten realen Trials erforderlich, um Performance, Sicherheit und Fairness umfassend nachzuweisen.
Wenn autonome Systeme lernen, nicht nur zu sehen, sondern auch zu antizipieren, ändert sich die Logik des urbanen Verkehrs: weniger abrupte Bremsmanöver, weniger angespannte Situationen an Zebrastreifen und eine Verkehrsdynamik, die menschlicher Intuition ähnelt, jedoch ohne menschliche Fehleranfälligkeit. Die Straße der Zukunft könnte dadurch nicht nur intelligenter werden, weil Maschinen besser wahrnehmen, sondern weil sie beginnen, zu verstehen, warum Menschen tun, was sie tun. Dies eröffnet neue Chancen für Verkehrssicherheit, urbane Mobilitätskonzepte und die Akzeptanz autonomen Fahrens im öffentlichen Raum.
Abschließend bleibt festzuhalten: OmniPredict repräsentiert einen technologischen Schritt in Richtung prädiktiver Autonomie und multimodaler KI im Verkehrswesen. Die Herausforderungen sind technisch, ethisch und regulatorisch vielschichtig, doch die potenziellen Vorteile für Verkehrssicherheit, Rettungsoperationen und adaptive Mobilitätslösungen sind beträchtlich. In den kommenden Jahren werden empirische Felddaten, offene Standards und interdisziplinäre Zusammenarbeit darüber entscheiden, wie schnell und in welchem Umfang solche prädiktiven Systeme in den Verkehr integriert werden können.
Quelle: scitechdaily
Kommentar hinterlassen