WEBVTT

00:00.980 --> 00:12.140
Ich fange mal ein bisschen an mit, was war vor den ganzen tiefen Sachen und später, dann sage ich was, wie wir Deep Learning bei uns gerade verwenden.

00:12.400 --> 00:17.080
Kleine Information, das ist wirklich alles auf Bilderbasis, was wir hier machen. Es gibt auch noch andere Gruppen bei uns.

00:17.480 --> 00:22.320
Ich selber arbeite im Team für Bildverarbeitung und natürlich kann man das Ganze auch noch in anderen Bereichen verwenden,

00:22.320 --> 00:29.620
Stichwort andere Sensorik, Glieder oder Radar oder natürlich auch für andere Sachen, wie zum Beispiel die Planung später für autonomes Fahren.

00:30.000 --> 00:49.620
Ja, once upon a time, wie sah die Zeit vor den tiefen Netzen aus? Das ist gar nicht so lange her, wenn man das jetzt mal so sagen darf. Wir sind relativ spät eingestiegen, muss man gestehen. Das haben wir gerade eben gesehen, 1998 ging der ganze Spaß schon los. Ich hoffe, das funktioniert jetzt auch. Erstmal ein kleines bisschen Gehirnwäsche machen und Werbung zeigen.

00:53.960 --> 00:56.560
Dazu sollte ich vielleicht auch den Ton noch anmachen, damit das auch funktioniert.

01:00.000 --> 01:04.140
Ich glaube, wie soll es eigentlich auch gehen, oder?

01:04.140 --> 01:04.720
Ah.

01:08.820 --> 01:09.500
Okay.

01:12.780 --> 01:14.420
So viel zur Technik.

01:16.660 --> 01:17.860
Ja, gut.

01:18.660 --> 01:19.500
Wie geht das unter Windows?

01:19.880 --> 01:21.040
Ja, bitteschön.

01:30.000 --> 01:32.000
Amen.

02:00.000 --> 02:04.680
Gut, soviel dazu. Vortrag KDM.

02:30.000 --> 02:46.940
Das waren so ein bisschen die Lorbeeren, die wir geerntet haben nach vielen Jahren vorher,

02:47.400 --> 02:50.060
dass wir dafür gekämpft haben, dass eine Stereo-Kamera ins Auto kommt.

02:50.920 --> 02:56.020
Hier sieht man mal ein Sensor-Setup, wie es in unseren Besuchsträgern aussieht,

02:56.020 --> 02:57.300
nicht in dem, was wir gerade gesehen haben.

02:57.300 --> 03:03.340
In dem, was wir gerade gesehen haben, in Serie, wird eine Stereokamera vorne verbaut, also zwei Augen, wie bei den Menschen auch.

03:03.840 --> 03:05.580
Und natürlich noch viele andere Sensorik.

03:06.540 --> 03:13.040
Hier sieht man mal so ein bisschen das Setup, was wir bei der autonomen Fahrt von Mannheim nach Pforzheim hatten.

03:14.760 --> 03:22.040
Ja, genau. Und da interessiert uns jetzt, was ich jetzt hier auch immer zeigen werde, eigentlich nur erstmal die Augen nach vorne, die Stereokamera.

03:23.040 --> 03:28.280
Die Stereokamera sieht bei einem Versuchsträger in der Entwicklung nicht ganz so schick aus wie in einem fertigen Fahrzeug.

03:29.240 --> 03:31.040
Das sind zwei normale Kameras, zusammengeschraubt.

03:31.100 --> 03:32.580
Wir haben ein linkes, wir haben ein rechtes Bild.

03:33.020 --> 03:41.520
Wir bekommen dadurch für fast jeden Punkt eine Information, wie tief oder wie weit ein Punkt entfernt ist von der Kamera.

03:42.480 --> 03:45.980
Und das Ganze kann man sich dann auch nochmal so ein bisschen dreidimensional vorstellen.

03:45.980 --> 03:52.080
und das Ganze ist nun mittlerweile auch schon historisch,

03:52.220 --> 03:55.120
das ist 2008 auch schon so in Hardware gegossen worden,

03:55.280 --> 03:58.640
dass man das halt, wie man gerade eben auch gesehen hat, schon in Serie produzieren kann.

04:00.020 --> 04:02.120
Unser nächster Schritt war auch schon länger her,

04:02.480 --> 04:06.520
dass wir aus diesen Stereo-Informationen versucht haben, das Ganze runterzubrechen

04:06.520 --> 04:09.420
von damals 400.000 Pixeln, heute von ein paar Millionen Pixeln,

04:09.920 --> 04:12.820
runter auf wenige sogenannte Stixel, also Stäbchen,

04:12.820 --> 04:16.980
die sich wesentlich leichter verarbeiten lassen für spätere Weiterverarbeitung.

04:19.420 --> 04:22.940
Und wenn man jetzt hier zum Beispiel mal schaut, wie das Ganze aussieht,

04:22.960 --> 04:25.520
wenn man die Bilddaten noch hinten dran legt und wenn man die Bilddaten jetzt entfernt,

04:25.800 --> 04:29.480
kann man doch immer noch grob erahnen, was denn da hier überhaupt passiert in dieser Szene.

04:29.840 --> 04:33.820
Nur anhand dieser Stäbcheninformationen, die man aus den Bildern extrahieren kann

04:33.820 --> 04:36.100
und das ist natürlich wesentlich leichter weiterzuverarbeiten,

04:36.580 --> 04:41.560
weil im Fahrzeug haben wir natürlich keinen fetten Rechner mit einer richtig dicken Grafikkarte zum Beispiel.

04:42.820 --> 04:47.320
Objektdetektion für, also vor den Diebnetzen.

04:49.120 --> 04:52.740
Beispiel hat ja gerade eben der Professor Maucher, glaube ich, auch schon mal so ein bisschen in die Richtung angesprochen.

04:53.160 --> 04:58.680
Damals war es so, man nimmt ein Eingabebild, man streut verschiedene Hypothesen, wo könnte sich denn was befinden, zum Beispiel ein Fußgänger.

04:59.060 --> 05:03.060
Man hat gesagt, aus Rechenzeitgründen im Himmel brauchen wir nicht suchen, auf der Motorhaube brauchen wir nicht suchen.

05:03.420 --> 05:06.280
Wir klassifizieren die einzelnen Objekte, ja, da ist eins.

05:06.680 --> 05:12.620
Und danach wird noch ein Tracking draufgesetzt, um zu gucken, wie bewegen sich denn die Objekte von A nach B zum Beispiel.

05:13.820 --> 05:20.060
Hier sieht man mal so ein paar Beispiele, wie das Ganze dann überhaupt aussieht, wenn man das versucht auch als Mensch da wahrzunehmen.

05:20.160 --> 05:22.940
Da sind natürlich ein paar Bilderchen dabei, die relativ schwer zu erkennen sind.

05:23.060 --> 05:30.340
Und auch anhand dieser Stay-Home-Information hat man nochmal zusätzliches Wissen reinbringen können und damals relativ gute Erkennungsraten zu erreichen,

05:30.480 --> 05:38.100
um, wie das was wir gerade eben gesehen haben in dem Werbespot, Fahrassistenzsysteme zu bauen, die helfen, den Fahrer zu unterstützen.

05:38.720 --> 05:41.960
Das heißt aber, helfen, sie funktionieren nicht in 100% aller Fälle.

05:42.500 --> 05:46.080
Das heißt zum Beispiel, dieses typische, was wir gerade gesehen haben, wenn wir auf eine Person zufahren,

05:47.160 --> 05:52.620
das heißt nicht, dass wir jetzt immer einfach drauf losfahren können und auf die Person mit Vollgas drauf zufahren können, das Auto bremst schon.

05:53.300 --> 05:59.400
Das funktioniert in den meisten Fällen sicherlich, aber ich denke in den Fällen, wo es nicht funktioniert, ist es nicht so sehr schön.

06:00.420 --> 06:04.980
Das heißt, das ist Fahrerunterstützung, die wir jetzt haben. Das ist noch kein Ersatz für den Fahrer, was wir hier in Serie haben.

06:07.180 --> 06:10.020
Hier sieht man nochmal so ein kleines Beispiel, wie das Ganze dann aussieht von der Erkennung.

06:10.020 --> 06:14.780
Man sieht, dass ab und zu auch mal vielleicht mal ein Track verschwindet, hat man ganz kurz gesehen.

06:15.460 --> 06:19.960
Das heißt, das ist noch nicht hundertprozentig, was da funktioniert, aber es funktioniert doch schon relativ gut.

06:23.820 --> 06:27.200
Das war der Stand von vorher. Nein, noch nicht ganz. Ich habe noch eine Folie.

06:27.320 --> 06:29.660
Wir haben hier noch andere Objekte, die wir natürlich verfolgen können.

06:30.780 --> 06:35.940
Fahrzeuge ist noch so eine andere Klasse. Natürlich interessieren uns auch noch wesentlich mehr Objekte, die es gibt.

06:35.940 --> 06:41.020
und Fahrzeuge und Fußgänger, denke ich, sind aber die wichtigsten von denen, die wir haben.

06:41.140 --> 06:45.300
Also das ist quasi der Stand, wie wir ihn vorher hatten und wie wir ihn auch in Serie haben.

06:45.780 --> 06:48.780
Nicht alles in Serie, aber zumindest was wir bis letztes Jahr so entwickelt hatten.

06:49.480 --> 06:51.900
Hier ist das Ganze auch nochmal mit Ampeln, was ein sehr schwieriges Thema ist,

06:52.020 --> 06:55.760
gerade auch in Deutschland, wenn man direkt vor der Ampel steht, dass die relativ schnell verschwinden

06:55.760 --> 07:00.180
und gerade wenn man sich mal ein bisschen die Bilder anguckt, auch wieder, man möchte wissen,

07:00.180 --> 07:04.980
wie sieht eine Ampel aus oder welche Ampelfarbe wird gerade gezeigt.

07:05.440 --> 07:08.960
Ich denke, bei der linken Ampel ist es relativ einfach, bei der zweiten geht es vielleicht noch,

07:09.500 --> 07:13.480
bei der dritten ist es richtig schwer, gut, der Beamer zeigt natürlich noch relativ schlecht an,

07:13.540 --> 07:18.020
man sieht noch leicht rot oben drinnen und bei der vierten sieht man auch bei mir auf dem Bildschirm nichts mehr.

07:19.200 --> 07:22.900
Das liegt sicherlich auch am bildgebenden Sensor, da werden wir auch mit tiefen Netzen nicht mehr machen können,

07:23.500 --> 07:26.100
aber auch das ist nochmal ein Beispiel für Objektklassifikation.

07:27.380 --> 07:30.420
Gut, kommen wir zu den eigentlichen Teilen, weswegen die meisten sicherlich hier sind.

07:31.680 --> 07:33.600
Deep Learning changed everything.

07:34.100 --> 07:36.080
Gut, klingt jetzt mal ein bisschen weit aus dem Fenster gelehnt.

07:37.080 --> 07:40.220
Es hat sehr viel geändert, vielleicht nicht alles, aber sehr viel.

07:41.100 --> 07:44.580
Was Deep Learning ist, wurde ja gerade eben schon mal ziemlich,

07:45.420 --> 07:48.660
wurde zumindest ausreichend für meinen Vortrag schon mal eingeleitet.

07:49.080 --> 07:50.840
Ich werde darauf dann größtenteils verzichten.

07:51.780 --> 07:54.620
Dann werde ich wissen, was zu erzählen, was wir mit Bildkategorisierung machen.

07:54.620 --> 08:00.360
Das ist das, was vorhin der Professor Maucher mit dem Image-Net zum Beispiel mal gezeigt hatte.

08:01.100 --> 08:04.100
Danach werde ich zum nächsten Thema gehen, Objektlokalisierung,

08:04.660 --> 08:07.360
dann bis hin zur semantischen Segmentierung und dann vielleicht auch nochmal,

08:07.440 --> 08:09.800
wenn die Zeit das erlaubt, kurz was über Stereo erzählen.

08:11.340 --> 08:14.680
Also was ist Deep Learning? Wir haben vorhin schon gelernt, neuronale Netze,

08:14.760 --> 08:17.060
ich denke, das sollte aus der Vorlesung den meisten ein Begriff sein.

08:17.200 --> 08:19.780
Das ist dieselbe Grafik, wie der Herr Professor Maucher auch benommen hat.

08:20.460 --> 08:24.280
Wir nehmen einfach noch mehr Hidden Layer hinzu, damit sind wir schon bei einem tiefen neuronalen Netz.

08:24.860 --> 08:28.500
Wir machen jetzt nicht mehr einfach nur irgendwelche Verknüpfungen,

08:28.500 --> 08:30.960
sondern wir verwenden jetzt Convolutions, also Faltungen.

08:31.540 --> 08:33.880
Das nennt sich dann Deep Convolution in Neural Network,

08:33.980 --> 08:37.260
was ich später auch abgekürzt einfach mal als CNN bezeichnen werde,

08:37.360 --> 08:40.300
falls ihr euch wundert, dass ich diesen Begriff verwende.

08:41.400 --> 08:45.000
Und hier nochmal ganz kurz das, was auch schon mal gezeigt wurde,

08:45.240 --> 08:47.660
wie Deep Learning sich so in den letzten Jahren entwickelt hat.

08:48.040 --> 08:51.580
Jan Lekun, ganz links, gerade eben schon mal erwähnt, 1998 dieses Paper,

08:52.040 --> 08:53.980
mit den Handwritten Digital Recognition.

08:54.580 --> 08:55.880
Das war so der erste Peak.

08:55.880 --> 09:00.880
dann passierte lange Zeit eigentlich nichts in diese Richtung Deep Learning oder beziehungsweise Convolution Linear Networks.

09:01.860 --> 09:06.800
Der Geoffrey Hinton, auch vorhin schon mal erwähnt worden, hat das gut formuliert,

09:07.320 --> 09:11.660
dass die Community die ganze Zeit eigentlich den Rücken dieser Technologie zugewendet hat,

09:12.100 --> 09:16.060
aber die ganze Zeit versucht hat mit irgendwelchen Techniken, die vorhin auch mal kurz angesprochen wurden,

09:16.480 --> 09:20.820
Stichwort SIFT, Stichwort Back of Words, das sind alles so Sachen, die zu meinem Studium ganz groß waren

09:20.820 --> 09:24.180
und da hieß es immer neuronale Netze, das ist so was aus den 90ern, fasst das nicht an.

09:25.880 --> 09:26.700
Bild

09:26.700 --> 09:31.200
das war praktisch in diesem Zeitraum zu zwischen 2000 und 2010 war relativ tot

09:31.200 --> 09:32.040
das Thema

09:32.040 --> 09:34.920
klar gab es nur noch welche die mit neuen Annetzen gearbeitet haben aber so

09:34.920 --> 09:37.800
richtig diese Idee die damals so eine Kulik und hatte

09:37.800 --> 09:40.800
um zu sagen sein Team hatte ist nicht weiter verfolgt wurden

09:40.800 --> 09:42.280
erst 2012

09:42.280 --> 09:46.460
hat so auch von erwähnt Prozent dieses Alex netter um

09:46.460 --> 09:48.560
Prozent Alex Prozent Schäfski

09:48.560 --> 09:52.520
hat um zusammen mit den Joyer Joffrey hinten Prozent das Paper bei Image

09:52.520 --> 09:54.220
schnell reingereicht, haben dort plötzlich

09:54.220 --> 09:56.520
einen riesengroßen Performance-Schub bei so einem

09:56.520 --> 09:57.700
Benchmark gemacht, wo es heißt,

09:58.360 --> 10:00.560
testet eure Verfahren, wie gut seid ihr auf diesen tausend

10:00.560 --> 10:02.600
Klassen und plötzlich haben alle gedacht,

10:02.680 --> 10:04.560
oh mein Gott, was ist denn das für eine Technik? Das funktioniert

10:04.560 --> 10:06.540
ja super. Und das spiegelt sich auch

10:06.540 --> 10:07.900
mal ein bisschen wieder in diesen,

10:09.480 --> 10:10.560
wenn man jetzt bei Google

10:10.560 --> 10:12.460
Trends mal eingibt,

10:12.560 --> 10:13.740
wie oft wird irgendwas gesucht.

10:14.680 --> 10:16.400
Zu meiner Zeit, als ich studiert habe,

10:16.460 --> 10:18.460
Machine Learning, Pattern Recognition, das waren so die

10:18.460 --> 10:20.460
Worte, die non plus

10:20.460 --> 10:22.000
ultra, Deep Learning,

10:22.000 --> 10:34.320
Keine Ahnung, nie gehört. Wenn man das mal ein bisschen vergleicht, diese Pattern Recognition wird heutzutage fast gar nicht mehr gesucht und dieses Deep Learning, das ist eigentlich, wenn man so guckt, seit 2013 doch exponentiell gestiegen.

10:34.960 --> 10:48.740
Und parallel dazu natürlich auch noch gleichzeitig das Machine Learning. Also immer mehr Leute interessieren sich auch dafür, was die Ursache hat, dass diese Technik mittlerweile ausgereift ist und die Hardware, also auch gerade Stichwort GPUs, das Ganze auch bewältigen können.

10:48.740 --> 11:02.500
Als erstes Beispiel gehe ich ein bisschen auf Bildkategorisierung ein. Auch hier eine kleine Wiederholung nochmal von eben. Wir haben ein Bild oder mehrere Bilder und möchten das einer oder mehreren Klassen zuordnen.

11:03.200 --> 11:05.760
Das können zum Beispiel die genannten Klassen sein, die hier sind.

11:06.420 --> 11:10.960
Also alles Mögliche, was gerade eben schon mal im ImageNet auch erwähnt wurde,

11:11.140 --> 11:13.220
von der Bananenschale bis hin zum Hund.

11:14.160 --> 11:18.640
Und wir bekommen für jede einzelne Klasse im Optimalfall eine Wahrscheinlichkeit,

11:18.640 --> 11:25.280
aber zumindest bekommen wir eine Aussage, ob sich in diesem Bild dieses Objekt befindet oder nicht befindet.

11:26.040 --> 11:29.220
Das Ganze, auch gerade eben schon mal angewendet, erwähnt worden,

11:29.220 --> 11:33.260
ist mit diesem AlexNet, das ist eine relativ simple Architektur.

11:33.700 --> 11:36.200
Das Wichtige ist, was man wissen muss, ganz links,

11:36.840 --> 11:40.960
dieses Eingabebild wird reduziert auf 224 Quadratpixel.

11:42.400 --> 11:45.360
Diese drei, die man hier sieht, das ist die Anzahl der Kanäle

11:45.360 --> 11:49.340
und 224 Quadrat ist die Auflösung, auf die das Bild reduziert wird in dem Fall.

11:49.860 --> 11:52.260
Danach passiert diese mehrere Convolutions,

11:52.780 --> 11:54.660
am Ende gibt es sogenannte Fully Connected Layer

11:54.660 --> 11:56.760
und was uns eigentlich jetzt noch um zweiter Stelle interessiert,

11:56.760 --> 11:58.480
in diesem Vortrag ist diese Ausgabe.

11:58.480 --> 12:04.140
Wir haben 1000 Klassen, die wir am Ende rausbekommen, die von diesem ImageNet vordefiniert werden.

12:04.640 --> 12:09.580
Die simpelste Idee, vorhin auch schon mal erwähnt, ist, wir schneiden einfach diesen letzten Layer ab mit 1000 Klassen

12:09.580 --> 12:12.740
und möchten jetzt aber neue Klassen einfügen.

12:12.880 --> 12:15.900
Zum Beispiel Klassen, die uns vorher bei diesem ImageNet überhaupt nicht interessiert haben.

12:16.400 --> 12:18.940
Da werde ich gleich ein paar Sachen nennen, die man dann verwenden könnte.

12:20.920 --> 12:25.540
Das ist zum Beispiel ein, was wir bei uns gemacht haben, so einer der ersten Tests, die wir mit Deep Learning gemacht haben.

12:25.540 --> 12:43.580
Wir haben dieses AlexNet genommen, haben die neuen Klassen, die sieht man hier unten, Trocken, Regen, Schnee, Nebel, die Sonne blendet rein, Tunnel, das ist so mehr oder weniger willkürlich aus irgendwelchen Anforderungen erwachsen, reingesteckt, damit trainiert, mehrere Millionen Bilder, die wir eingefahren haben, beziehungsweise noch auf unseren Festplatten lagen.

12:43.580 --> 12:48.340
und oben sieht man die Wahrscheinlichkeiten der drei wichtigsten Klassen

12:48.340 --> 12:49.740
und eine Wahrscheinlichkeit für alle Klassen.

12:50.160 --> 12:54.720
Das heißt, in dem aktuellen Bild sind wir in einem Trocknen-Szenario.

12:55.720 --> 12:57.220
Wenn wir jetzt mal ein bisschen reinspulen in das Video,

12:57.320 --> 12:58.920
kommen wir dann auch nochmal zu anderen Wetterbedingungen.

12:59.360 --> 13:01.240
Schnee ist immer relativ schwierig aufzuzeichnen.

13:02.380 --> 13:04.980
Da sieht man, dass der Ausschlag für Schnee sehr hoch ist

13:04.980 --> 13:08.780
und das Ganze geht natürlich auch noch für alle anderen Klassen.

13:09.660 --> 13:12.280
Und das hat uns schon erstaunt, weil zu diesem Zeitpunkt

13:12.280 --> 13:14.040
haben wir noch nicht mit Deep Learning gearbeitet vorher.

13:14.740 --> 13:16.300
Der Kollege von uns hat sich mit

13:16.300 --> 13:18.680
klassischen Verfahren, Stichwort Fouillet-Transformation,

13:19.420 --> 13:20.500
Bildkategorisierung,

13:20.660 --> 13:22.120
Back of Words, Support Vector Machine,

13:22.180 --> 13:24.460
was da alles so halt vorhanden war, hat er sich ein halbes Jahr hingesetzt

13:24.460 --> 13:26.260
und alle möglichen Sachen zusammengebastelt

13:26.260 --> 13:27.860
und angepasst auf diese Problematik.

13:28.280 --> 13:30.320
Und danach hat er genau dieselben Daten, die er da

13:30.320 --> 13:32.400
gesammelt hat, einfach mal in dieses AlexNet reingesteckt.

13:32.980 --> 13:33.720
Innerhalb von

13:33.720 --> 13:36.920
fünf Tagen Training, ein Tag Arbeit, um das umzuadaptieren.

13:37.300 --> 13:38.320
Fünf Tage trainieren lassen

13:38.320 --> 13:39.540
vielleicht oder feintunen.

13:40.020 --> 13:41.900
Und am Ende kam was raus, was

13:41.900 --> 13:43.620
ein Prozent besser war als vorher.

13:44.540 --> 13:46.160
Das war schon ein bisschen deprimierend,

13:46.200 --> 13:47.440
weil man sich plötzlich überflüssig vorkam.

13:49.220 --> 13:50.100
Ein zweites Beispiel,

13:50.220 --> 13:52.120
das ist auch von einer Studentin hier von der HDM,

13:52.320 --> 13:54.100
die bei uns Praktikum

13:54.100 --> 13:55.940
gemacht hat, beziehungsweise in dem Zeit Masterarbeit

13:55.940 --> 13:57.920
gemacht hatte. Da ging es das

13:57.920 --> 14:00.200
Szenario aus klassischer Anforderung, das Radar

14:00.200 --> 14:01.660
hat Probleme, Brücken zu erkennen.

14:02.400 --> 14:04.000
Das heißt, wenn wir plötzlich hier

14:04.000 --> 14:06.060
ein Hindernis sehen, diese Brücke, dann sagt

14:06.060 --> 14:07.680
das Radar, hier ist eine Mauer,

14:08.000 --> 14:10.180
fahr da nicht weiter, das ist gefährlich. Deswegen haben wir gesagt,

14:10.620 --> 14:17.860
gut, wir schauen doch mal lieber nach, ob wir in diesem Bereich, wo das Radar Probleme hat, 80 bis 120 Meter, ob da eine Brücke existiert.

14:18.480 --> 14:22.100
Wenn diese Brücke existiert, sagen wir, wir ignorieren das Radar und fahren durch.

14:22.900 --> 14:27.160
Das hat einigermaßen gut funktioniert, muss man auch sagen, ist ein relativ schwieriges Thema.

14:27.160 --> 14:30.440
Und wie vorhin schon erwähnt wurde, wir brauchen sehr viele Bilddaten.

14:30.880 --> 14:33.740
Jetzt ist aber ein Problem, wirklich Millionen von Brücken einzufahren.

14:33.920 --> 14:37.160
So eine Brücke ist doch öfters, als man denkt, schon so ungefähr vielleicht jeden Autobahnkilometer.

14:37.160 --> 14:41.600
Kilometer, aber nichtsdestotrotz hat die Studentin relativ viele Probleme gehabt,

14:41.600 --> 14:46.340
genügend Daten zu bekommen. Ein weiteres Thema, ebenfalls von einem

14:46.340 --> 14:51.620
Studenten von der HDM bearbeitet, ging um Ausfahrtenerkennung. Die Motivation hier

14:51.620 --> 14:54.560
war, wir haben eine klassische Spurerkennung, die anhand des

14:54.560 --> 14:58.400
Gradientens versucht, da irgendwo an diese weißen Linien zu finden und

14:58.400 --> 15:02.640
findet natürlich auch diese weiße Linie, die hier rausgeht rechts. Und es kann

15:02.640 --> 15:06.200
sein, dass das Fahrzeug sagt, die rechte Linie ist stärker als die linke, wir hängen

15:06.200 --> 15:08.320
uns an die Rechte hinan und fahren plötzlich raus

15:08.320 --> 15:10.440
an der Autobahn. Das ist natürlich beim hochautonomen

15:10.440 --> 15:12.360
Fahren relativ gefährlich,

15:12.420 --> 15:14.280
weil auf der Autobahn gehen wir von aus, da sind keine Ampeln

15:14.280 --> 15:16.220
und plötzlich überfahren wir, wir denken, wir sind noch

15:16.220 --> 15:18.100
auf der Autobahn und überfahren zum Beispiel die Ampel am Ende der

15:18.100 --> 15:19.320
Ausfahrt. Das wäre natürlich ein Skandal.

15:20.720 --> 15:22.060
Deswegen haben wir gesagt, okay,

15:22.160 --> 15:24.300
wir versuchen es erstmal, das war so gerade die Übergangsphase,

15:24.440 --> 15:25.060
wo wir mit

15:25.060 --> 15:27.700
neuronalen Netzen gearbeitet haben,

15:28.220 --> 15:30.080
erstmal mit normalen neuronalen Netzen auf diesen

15:30.080 --> 15:32.280
einzelnen Badges, die man hier sieht, diese grünen Badges,

15:32.780 --> 15:34.040
diese zu klassifizieren

15:34.040 --> 15:35.480
mit einem normalen neuronalen Netz,

15:35.940 --> 15:39.720
Später mit einem tiefen neuronalen Netz haben wir dann auch diese einzelnen Badges reingesetzt.

15:39.820 --> 15:42.980
Und dann haben wir gesagt, warum eigentlich diese einzelnen Badges und diese Vorverarbeitung noch?

15:43.620 --> 15:48.540
Wir könnten doch einfach auch das ganze Bild reinstecken und die Frage stellen, ist hier eine Ausfahrt oder ist hier keine Ausfahrt?

15:48.980 --> 15:52.080
Und auch das hat gut funktioniert danach.

15:52.700 --> 15:58.300
Ein weiteres Beispiel, was man das Ganze nicht nur zur Klassifikation, sondern auch zur Regression verwenden kann.

15:58.700 --> 16:03.400
Das heißt, wir haben nicht mehr eine einzelne Klasse, die sagt, ist Objekt A drin oder nicht,

16:03.400 --> 16:12.340
sondern wie verhält sich Parameter A zwischen minus-unendlich bis plus-unendlich, wie kann er anhand dieser aktuell gegebenen Bilddaten geschätzt werden.

16:13.020 --> 16:21.840
Das heißt, wir haben durch unsere bereits vorhandene Spurerkennung einfach mal diese Strecken zum Training, also natürlich eine andere Strecke zum Training, langgefahren,

16:21.920 --> 16:28.320
haben gesagt, okay, das möchtest du bitte lernen, so möchten wir im Optimalfall fahren und jetzt lern doch bitte mal diese Parameter auswendig

16:28.320 --> 16:32.820
und zeig uns doch mal, was du gelernt hast und zeig, wie du dann fahren würdest.

16:32.920 --> 16:37.760
Das sieht man jetzt hier grün eingezeichnet, ja, nur für eine gewisse Distanz,

16:38.180 --> 16:40.200
aber es sieht doch schon relativ gut aus.

16:40.420 --> 16:43.720
Man kann auch, das haben wir mittlerweile auch schon danach geregelt fahren,

16:43.820 --> 16:46.560
das heißt, wir können uns damit in ein Auto setzen und ich würde jetzt nicht sagen,

16:46.640 --> 16:48.420
ich würde jetzt einen Studenten da hinsetzen wollen ans Steuer,

16:48.860 --> 16:54.180
aber es fährt doch dafür, dass wir ohne viel Aufwand einfach mal ein bisschen Trainingsdaten reingesteckt haben,

16:54.180 --> 16:57.300
dieses Alex-Net auch wiederverwendet haben, aber von Scratch trainiert,

16:57.300 --> 17:05.680
nicht mit den Image-Net-Daten, kein Fine-Tuning, können wir doch schon einigermaßen gut auf der Autobahn oder auf der Straße fahren.

17:07.660 --> 17:11.560
Die nächste Hürde, wir haben gerade eben immer das komplette Bild betrachtet.

17:11.660 --> 17:14.920
Wir haben das Bild angeschaut und haben gesagt, dieses Bild kann das oder kann das nicht.

17:15.040 --> 17:18.100
Es ist das und das drin, es ist das, die und die Fähigkeit hat das Bild.

17:18.920 --> 17:24.760
Die nächste Frage ist etwas schwieriger, die lautet, wo befindet sich denn dieses Objekt im Bild?

17:24.760 --> 17:34.660
Als Beispiel, wir bekommen ein Eingabebild und als Ausgabe bekommen wir eine Box oder mehrere Boxen, sogenannte Bounding-Boxes, um ein Objekt herum.

17:35.220 --> 17:44.760
Das sieht man hier bei der Pascal-Challenge, das ist so ähnlich wie ImageNet für die Kategorisierung, ist Pascal gewesen, das existierte Challenge ist nur bis 2012 gewesen.

17:46.600 --> 17:50.760
Also Challenge im Sinne von, da konnten Leute ihre Verfahren gegeneinander vergleichen.

17:50.760 --> 17:54.280
sieht man mal ein paar Beispiele, was die so verwendet haben.

17:54.600 --> 17:56.200
Also alles Mögliche.

17:56.300 --> 17:57.720
Hier sind auch sehr viele Klassen enthalten,

17:58.060 --> 18:00.000
von irgendwelchen Tieren bis hin zu Menschen,

18:00.340 --> 18:01.620
Flugzeuge und so weiter.

18:04.000 --> 18:06.540
Da gibt es auch verschiedene Methoden,

18:06.720 --> 18:11.400
die auf tiefen neuronalen Netzen basieren.

18:11.780 --> 18:13.300
Ich habe jetzt mal ein Beispiel rausgenommen,

18:13.400 --> 18:14.240
die nennt sich YOLO.

18:14.240 --> 18:16.140
Das ist nicht You Only Live Once,

18:16.220 --> 18:18.300
wie es heutzutage eigentlich Begriff ist,

18:18.400 --> 18:19.640
sondern You Only Look Once.

18:20.240 --> 18:24.460
Und zwar, früher wurde ja angesprochen, wir haben diese ganz vielen Boxen gestreut,

18:24.560 --> 18:27.760
jede einzelne Box wurde abgefragt, bist du ein Objekt, bist du kein Objekt.

18:28.100 --> 18:31.520
Man hat also ganz oft zugreifen müssen und je nachdem, wie viele Boxen man gestreut hat,

18:31.960 --> 18:33.680
umso öfter musste man nachfragen.

18:34.320 --> 18:37.280
In diesem Fall, als Beispiel, es gibt auch noch andere Architekturen,

18:37.880 --> 18:41.740
auch hier ein Eingabebild, wieder drei Kanäle tief, RGB.

18:42.200 --> 18:46.700
In dem Fall von der Auflösung auch wieder reduziert auf 448 Quadrat.

18:47.080 --> 18:52.200
Dazwischen passiert wieder einiges an Magic, also wieder Convolutional Layer, ähnlich wie in den anderen Netzen.

18:52.760 --> 19:01.560
Und am Ende, das ist das Interessante, gibt es einen Layer, der praktisch dann die Boxen schätzt, soll heißen.

19:02.040 --> 19:08.860
Wir haben in diesem Layer, wenn ich hier mit der Maus zeige, ein Gitter, was jetzt nicht mehr die Originalauflösung ist, sondern reduziert.

19:08.860 --> 19:12.860
Und für jeden einzelnen Gitterpunkt wird geschätzt, bist du ein Objekt?

19:12.860 --> 19:19.320
Als erstes eine Objectness wird geschätzt und als zweites wird geschätzt für jede einzelne Klasse, in dem Fall 20 Klassen, die hier drin sind,

19:20.120 --> 19:27.640
hier sind die 20 Klassen, wird geschätzt, wie wahrscheinlich ist diese Klasse und zusätzlich wird geschätzt, wenn hier wirklich ein Objekt drin wäre,

19:28.360 --> 19:33.300
wie wäre denn die XY-Position des Objektes und wie breit und wie hoch wäre denn dieses Objekt.

19:33.860 --> 19:41.480
Das heißt, wir bekommen, was man jetzt hier sieht, diese Ausschläge, 1, 2, 3 Ausschläge für die Klassen Fahrzeug, Fahrrad und Hund

19:41.480 --> 19:46.200
und bekommen da, hier ganz klein zu erkennen, diese Pünktchen, da ist der Mittelpunkt,

19:46.840 --> 19:49.640
hier sind sie genau, hier sind die Pünktchen, da ist der Mittelpunkt des Objektes

19:49.640 --> 19:52.840
und es hätte ungefähr diese Boundingbox, diese Box drumherum.

19:54.820 --> 20:00.440
Das Ganze funktioniert auch, wofür klassische Verfahren relativ stark verzweifelt sind,

20:00.440 --> 20:03.400
eigentlich an solchen Abstraktionen, die der Mensch kann, ja, Kunst zum Beispiel,

20:04.220 --> 20:07.580
der Schrei von Edvard Munch wird immerhin noch als Mensch erkannt.

20:07.580 --> 20:13.520
Und der einzige Fehler auf diesem Bild, den man weiß, was die Farben bedeuten, das ist Flugzeug.

20:14.340 --> 20:20.100
Aus diesem Action-Movie, ich weiß gar nicht, welcher das ist, ehrlich gesagt, aber das wird als Flugzeug erkannt.

20:22.380 --> 20:27.640
Als frühe Iteration, was ich hier zeige, das ist wirklich bildbasiert, hier ist kein Tracking drauf.

20:28.220 --> 20:32.680
Man sieht auch ab und zu mal falsch positive Boxen aufschießen, das ist mal so eine Variante, die wir gemacht haben,

20:32.680 --> 20:36.020
aber weil es für uns gerade nicht so wichtig war, nicht weiter verfolgt haben.

20:36.020 --> 20:39.540
das Ganze in unserem Szenario.

20:39.660 --> 20:41.900
Wir haben jetzt hier 15.000 Bilder

20:41.900 --> 20:44.580
mit ca. 60.000 Fahrzeugen reingesteckt.

20:45.000 --> 20:45.940
Das ist eine große Menge,

20:46.460 --> 20:48.660
aber das reicht an sich noch nicht.

20:48.740 --> 20:50.200
Man braucht hier teilweise noch mehr Daten

20:50.200 --> 20:52.180
und dieses Netz ist auch noch nicht fein austrainiert.

20:52.640 --> 20:55.700
Man müsste das mal einen Monat lang sauber rechnen lassen.

20:55.800 --> 20:57.080
Das ist jetzt gerade mal ein Tag gerechnet,

20:57.460 --> 20:59.340
nur zum Trainieren, damit dieses Netz richtig

20:59.340 --> 21:00.740
sich ordentlich mal alle Parameter,

21:01.200 --> 21:03.740
diese gigantische Menge an Parametern auswendig lernt.

21:06.020 --> 21:19.600
Natürlich Objektlokalisierung, wir hatten es vorhin schon mal ganz kurz, die Fußgängererkennung, auch hier wird Forschung betrieben von unserem Team, nicht von unserem Team direkt, aber von einem Partner-Team, von unserem Nachbar-Team und auch hier werden ähnliche Verfahren verwendet.

21:19.600 --> 21:26.540
Ist aber alles auch noch im Gange, das ist noch nicht so, dass ich jetzt hier ein richtiges Video zeigen könnte, wie es CNNs gemacht wird.

21:26.540 --> 21:38.100
Der nächste Schritt ist die semantische Segmentierung. Auch Scene Parsing genannt, Pixelwise Labeling, da gibt es massenhaft Namen, die im Endeffekt alle dasselbe machen.

21:38.820 --> 21:46.240
Und zwar ist hier das Ziel, das ist so ein bisschen die Königsdisziplin, das heißt wir gehen vom ganzen Bild auf einzelne Boundingboxen runter auf das Pixellevel.

21:46.240 --> 21:51.260
Wir möchten für jedes einzelne Pixel fragen wir, gehörst du zu einer von diesen Klassen?

21:51.740 --> 21:57.320
Bei diesem Datensatz, der enthält 5000 handgelabelte Bilder, für jedes Bild braucht ein Student ca. eine Stunde.

21:57.960 --> 22:01.400
Kann man mal hochrechnen, was das auch für Kosten sind und was das für ein zeittechnischer Aufwand ist.

22:02.960 --> 22:08.240
Wurde jedes einzelne Bild, jeder einzelne Pixel in diesem Bild wurde gelabelt, so gut es überhaupt ging.

22:08.240 --> 22:11.920
Da sind insgesamt 20 Klassen, hier unten sind mal 10 beispielhaft gezeigt, die wichtigsten.

22:12.660 --> 22:18.280
Da werden zum Beispiel auch zu Sachen unterschieden, wie Straße und Bürgersteig, wo ich immer sage, wo ist denn eigentlich der Unterschied.

22:18.280 --> 22:21.780
Das ist diese kleine Kante dazwischen. Ansonsten ist beides einfach eine Teerfläche.

22:22.680 --> 22:26.060
Selbst Fahrzeuge, Fußgänger, LKWs, Busse etc.

22:26.500 --> 22:28.280
Auch kleine Schilderchen werden hier unterschieden.

22:29.640 --> 22:35.280
Auch das kann man wieder mit einem neuronalen Netz, mit einem tiefen neuronalen Netz klassifizieren.

22:36.920 --> 22:43.020
Auch wieder ganz links Eingabebild in Farbe und ganz rechts Ausgabebild, so ähnlich wie wir es gerade eben gesehen haben.

22:43.020 --> 22:45.960
ist jetzt nicht so, dass wir nur ein einzelnes Bild rausbekommen,

22:46.060 --> 22:50.360
sondern wir bekommen pro Bildpunkt eine Wahrscheinlichkeit für jede einzelne Klasse hinaus

22:50.360 --> 22:53.900
und in einem Post-Processing-Schritt, also in einer Nachverarbeitung,

22:54.300 --> 22:57.820
wird entschieden, für diesen Bildpunkt gehört Gewindklasse ABC.

23:00.660 --> 23:05.260
Das ist ein Beispiel, was wir auf unserem Datensatz dann mal rausbekommen haben.

23:06.160 --> 23:11.000
Das sieht, außer dass die Ecken vielleicht ein bisschen rund gerutscht sind, sehr, sehr gut aus, muss ich sagen.

23:11.000 --> 23:16.160
Ich habe selber vor drei Jahren auf dieser Thematik promoviert und ich traue mir, meine Videos von damals gar nicht mehr zu zeigen.

23:17.320 --> 23:20.380
Das wäre auf diesem Szenario um Himmels Willen nicht mal annähernd gut gegangen.

23:20.940 --> 23:26.440
Wir sehen einzelne kleine Fehler. Man sieht zum Beispiel in dem Gebäude hier rechts oben immer mal ein bisschen was aufflackern, was da nicht reingehört.

23:27.140 --> 23:32.620
Aber selbst so Details wie diese Schilder, jedes einzelne Schild, was man da sieht, diese gelbe Farbe, ist die Klasse Schild.

23:32.700 --> 23:37.040
Und selbst die Pfeiler von dem Schild, das ist die graue Farbe, werden sauber klassifiziert.

23:37.040 --> 23:43.740
die Fußgänger werden erkannt, der Sidewalk, also der Fußgängerweg wird erkannt und noch viel mehr Details.

23:43.840 --> 23:46.260
Und das ist jetzt nicht die beste Sequenz, das ist eine von vielen Sequenzen.

23:49.640 --> 23:56.280
Genau, jetzt möchte ich noch was kurz sagen, wofür man es auch noch verwenden kann, zum Beispiel für Stereo-Berechnungen.

23:56.380 --> 24:02.100
Ich habe ganz am Anfang gezeigt, Stereo wird bei uns mittlerweile im Auto auch berechnet, auf einem ganz kleinen Chip.

24:02.100 --> 24:12.940
Also die Variante, das Ganze mit tiefen neuronalen Netzen zu berechnen, sieht ganz anders aus als das, was wir kennen.

24:13.020 --> 24:16.540
Wir brauchen natürlich auch wieder Trainingsdaten, das ist bei Stereo schwierig zu bekommen.

24:16.940 --> 24:20.540
Könnte man durch die klassischen Methoden natürlich erzeugen und das dann zum Trainieren verwenden.

24:21.420 --> 24:24.360
In dem Fall wird eine sogenannte siamesische Architektur verwendet.

24:24.360 --> 24:28.880
soll heißen, wir haben zwei Eingabebilder, linkes Bild, rechtes Bild

24:28.880 --> 24:34.300
und jedes Bild durchläuft die einzelnen Schritte, die ersten Schritte parallel,

24:34.480 --> 24:38.880
unabhängig voneinander und anschließend ab einem gewissen Punkt, hier zum Beispiel,

24:38.880 --> 24:43.980
werden die ganzen entweder konkateniert oder auch in anderer Art und Weise verknüpft,

24:44.040 --> 24:48.980
da gibt es auch verschiedene Architekturen und am Ende durchlaufen diese beiden verknüpften Bilder

24:48.980 --> 24:54.160
die weiteren Schritte bis am Ende dann diese Disparity Map,

24:54.260 --> 24:58.140
nennt sich das, als eine Art Tiefenkarte, ausgespuckt wird.

24:59.720 --> 25:03.440
Das ist aus unserer Sicht, funktioniert das okay.

25:03.760 --> 25:05.100
Es ist nicht schlecht, was da rauskommt.

25:05.180 --> 25:08.140
Es ist nicht die Qualität, die wir mit unseren klassischen Methoden haben.

25:08.140 --> 25:12.080
Und der Rechenaufwand steht in keiner Relation zu dem, was wir aktuell haben.

25:12.680 --> 25:14.960
Also von daher ist zum Beispiel hier die Frage,

25:15.060 --> 25:17.520
ob man sowas auch wirklich mit CNN lösen möchte, dauerhaft,

25:17.520 --> 25:20.560
oder ob man das bei den klassischen Methoden belässt und sagt,

25:21.340 --> 25:23.560
schön, es funktioniert, aber man muss das nicht machen an der Stelle.

25:26.340 --> 25:28.240
Um das Ganze mal ein bisschen zusammenzufassen.

25:29.520 --> 25:31.540
Das Ganze ist gerade ein gigantischer Hype.

25:31.540 --> 25:33.240
Der Hype ist auch begründet.

25:33.620 --> 25:35.600
Also das Ganze funktioniert auch unglaublich gut.

25:36.420 --> 25:38.860
Jeder versucht irgendwie alles damit zu lösen.

25:39.360 --> 25:43.820
Wir hatten auf der größten Konferenz für Bildverarbeitung auf der CVPA in den USA

25:43.820 --> 25:46.260
dieses Jahr haben sich Leute dafür entschuldigt,

25:46.400 --> 25:48.280
dass ihre Verfahren nicht mit Deep Learning waren.

25:48.800 --> 25:50.660
Also die Vorträge von Leuten, die gesagt haben,

25:51.500 --> 25:52.760
mein Verfahren funktioniert so und so.

25:53.180 --> 25:54.560
Und dann kam, die es nicht entschuldigt haben,

25:54.620 --> 25:56.800
kam dann die Frage, wie denn die Parameter für dieses Netz sind.

25:57.280 --> 25:58.360
Und dann haben sie gesagt, wir haben überhaupt kein Netz.

26:00.460 --> 26:02.240
Mittlerweile ist das fast ein Synonym,

26:02.380 --> 26:05.480
dieses Deep Learning für Machine Learning

26:05.480 --> 26:06.260
oder für Computer Vision.

26:07.540 --> 26:09.560
Viele Verfahren werden outperformed.

26:09.560 --> 26:11.640
Also es gab, wie vorhin gesagt, bei dem Image-Net,

26:11.720 --> 26:13.140
bei dieser Bildkategorisierung

26:13.140 --> 26:18.500
und auch bei der Objektlokalisierung plötzlich ganz neue Dimensionen, die wir vordringen konnten,

26:18.640 --> 26:22.080
in die Community vordringen konnte, was vorher gar nicht denkbar gewesen war.

26:22.900 --> 26:25.300
Es bleiben natürlich weiterhin viele offene Aufgaben.

26:26.000 --> 26:29.440
Das Thema ist noch so jung, das ist wie gesagt drei, vier, fünf Jahre alt,

26:29.980 --> 26:34.200
dass es wirklich überarbeitet wird und es passiert so viel gerade und es geht so schnell,

26:34.540 --> 26:36.140
dass wir selber den Überblick auch schon dafür verlieren.

26:36.140 --> 26:44.520
und dass wir, ja, das ist ganz schwer, wirklich alles nachzuschauen, was da alles rauskommt, was wirklich gut ist und was nicht gut ist.

26:44.980 --> 26:49.200
Früher war das so, die Sachen wurden in Journals veröffentlicht oder auf Konferenzen.

26:49.320 --> 26:52.300
Mittlerweile ist das zu langsam, einmal im Jahr was zu veröffentlichen.

26:52.720 --> 26:58.400
Das gibt, Archive nennt sich das, da wird täglich neue Verfahren veröffentlicht, die teilweise nicht richtig gereviewt sind,

26:58.460 --> 27:02.400
auf der anderen Seite teilweise auch richtig gute Sachen sind, wo man beim ersten Tag dabei sein kann.

27:03.360 --> 27:07.500
Zum Beispiel offene Aufgaben sind auch, wir können nicht für jedes einzelne Problem,

27:07.540 --> 27:11.140
was wir gerade eben genannt haben, ein tiefes neuronales Netz berechnen.

27:11.500 --> 27:14.100
Wir möchten bei unseren Fahrzeugen, muss alles in Echtzeit laufen,

27:14.160 --> 27:15.620
auf einer möglichst kleinen Architektur.

27:15.940 --> 27:19.880
Wir können ja nicht einen Supercomputer mit fünf Nvidia Titan X reinbauen.

27:20.520 --> 27:23.720
Wir brauchen am besten irgendwas Kleines, was sich irgendwo verstecken lässt.

27:24.360 --> 27:27.000
Das heißt, wir können nicht mehrere Netzwerke gleichzeitig rechnen,

27:27.000 --> 27:29.100
wir müssen irgendwie schauen, dass wir diese verschiedenen Aufgaben

27:29.100 --> 27:32.280
vielleicht in ein Netzwerk oder in wenige Netzwerke stecken können.

27:32.400 --> 27:40.420
Die Frage ist auch, wenn man diese verschiedenen Problemstellungen mit komplett verschiedenen Labeln gemeinsam lernen kann,

27:41.040 --> 27:45.720
wie kriegen wir das Ganze dann überhaupt ins Fahrzeug rein, können wir komplett auf GPUs verzichten?

27:46.820 --> 27:50.520
Natürlich, wie immer, als Mustererkenner muss man sagen, die Erkennungsraten gehen immer besser.

27:50.520 --> 27:56.280
100% gibt es nicht, damit muss man es abfinden, aber wir kommen immer näher ran.

27:56.280 --> 27:57.600
und

27:57.600 --> 28:00.860
nur mal ein Beispiel zu nennen

28:00.860 --> 28:02.120
von der Rechenzeit, dieses

28:02.120 --> 28:04.560
komplette Bild, was ich gerade eben gezeigt hatte, was

28:04.560 --> 28:06.840
pixelweise gelabelt wurde, das braucht

28:06.840 --> 28:08.880
aktuell bei uns ca. 60

28:08.880 --> 28:10.120
bis 80 Millisekunden.

28:10.760 --> 28:12.680
Das heißt, wir schaffen ein bisschen mehr als 10 Bilder

28:12.680 --> 28:14.320
pro Sekunde in voller Auflösung.

28:14.820 --> 28:16.440
Auf einer zugegeben

28:16.440 --> 28:18.600
richtig dicken Grafikkarte, die so viel Strom braucht,

28:18.660 --> 28:20.780
dass wir die nicht in ein Serienauto reinbringen

28:20.780 --> 28:21.960
könnten. Aber

28:21.960 --> 28:24.840
wir wollen mehr, also wir wollen schneller sein

28:24.840 --> 28:25.320
und so weiter.

28:26.280 --> 28:27.120
um weiterzukommen.

28:28.500 --> 28:30.040
Genau, und dem möchte ich mich bedanken

28:30.040 --> 28:31.840
für die Aufmerksamkeit an dieser Stelle.

28:32.740 --> 28:35.020
Und falls jemand Interesse hat,

28:35.200 --> 28:36.800
sich dann doch mal für ein Praktikum,

28:36.860 --> 28:39.100
wir möchten ungern gleich mit Abschlussarbeiten anfangen,

28:39.540 --> 28:41.360
aber mit einem Praktikum reinzukommen,

28:41.780 --> 28:45.720
hat unser Team auch mehrere Studentenplätze,

28:45.800 --> 28:46.620
genügend möchte ich nicht sagen,

28:46.700 --> 28:47.640
aber mehrere Studentenplätze,

28:48.180 --> 28:50.840
wo man sich gerne auch drauf bewerben darf.

28:51.140 --> 28:52.220
Es gibt auch Geld bei Daimler.

28:53.900 --> 28:54.620
Vielen Dank.

28:56.280 --> 29:12.040
Herr Fröhlich, Sie haben das jetzt sehr schön dargestellt.

29:12.200 --> 29:15.680
Und wenn ich das richtig verstanden habe, bedeutet das jetzt für die Technologie ja,

29:16.160 --> 29:18.860
eine hundertprozentige Erkennung ist nicht möglich.

29:19.300 --> 29:20.060
Kriegt man nicht hin.

29:20.500 --> 29:22.280
Auf der anderen Seite haben Sie jetzt gesagt,

29:22.280 --> 29:27.480
Sie verbauen diese Technologie oder ähnliche Assistenzsysteme in Serienfahrzeugen.

29:27.800 --> 29:32.180
Das bedeutet doch letztendlich, Sie verkaufen Kunden für viel Geld Systeme, die nicht zuverlässig funktionieren, oder?

29:34.060 --> 29:35.700
Nicht zuverlässig ist relativ.

29:36.000 --> 29:38.660
Also was ich vorhin als Beispiel gesagt habe, war diese Fußgängererkennung.

29:38.660 --> 29:43.660
Das heißt, wir können nicht garantieren, dass jeder Fußgänger, der vor einem vor das Auto springt,

29:44.260 --> 29:46.560
dass da auch rechtzeitig drauf gebremst wird.

29:46.700 --> 29:50.420
Aber für jedes Kind, für jeden Menschen, wo das Auto dann doch richtig reagiert,

29:50.720 --> 29:52.180
haben wir was richtig gemacht an der Stelle.

29:53.160 --> 29:58.160
Ja, Hintergrund der Frage ist nämlich der, ich besitze so ein tolles Fahrzeug, wo das alles drin ist und das funktioniert nämlich überhaupt nicht.

29:58.640 --> 29:59.860
Von welcher Führung? Von Daimler?

30:00.400 --> 30:04.180
Daimler, klar, logisch. Deswegen bin ich ja da.

30:04.880 --> 30:05.640
Was funktioniert nicht?

30:06.560 --> 30:15.260
Diese Kollisionswarnung zum Beispiel, dass man auch Gegenstände erkennt, andere Fahrzeuge, Schilder, Hindernisse und man davor gewarnt wird, auf ein Hindernis aufzufahren.

30:15.260 --> 30:16.780
und da haben Sie ein Riesenproblem.

30:17.000 --> 30:18.780
Das löst nämlich ständig False Positives aus

30:18.780 --> 30:20.920
und das nervt den Fahrer so dermaßen,

30:21.000 --> 30:22.600
dass man dann nachher gar nicht mehr darauf reagiert

30:22.600 --> 30:24.820
und damit ist so ein Assistenzsystem weitgehend nutzlos.

30:25.440 --> 30:26.720
Das ist richtig. Was heißt ständig?

30:26.800 --> 30:29.220
Bei meinem wird ungefähr einmal im Monat ein False Positive ausgegeben.

30:29.240 --> 30:30.400
Bei mir ist es fünfmal am Tag.

30:30.620 --> 30:31.900
Dann würde ich zur Werkstatt gehen.

30:32.020 --> 30:33.900
Ich war schon viermal dort, sogar in der Zentrale.

30:34.000 --> 30:35.520
Es ist in der Technik Berlin untersucht worden

30:35.520 --> 30:37.900
und die haben mir bestätigt, das System funktioniert wie designt.

30:38.340 --> 30:40.140
Sprich, das Design hat irgendwie eine Macke.

30:40.760 --> 30:43.140
Das heißt, diese Technologie, die Sie da vorgestellt haben,

30:43.140 --> 30:45.380
ist meiner Meinung nach nicht praxistauglich.

30:45.840 --> 30:47.560
Man muss bedenken, also gerade auch bei uns,

30:48.040 --> 30:49.600
es gibt immer so Arbeitskurven, nennt sich das.

30:49.680 --> 30:51.040
Wir haben immer so diesen Vergleich zwischen

30:51.040 --> 30:52.600
Forts Positives zur Erkennungsrate.

30:53.220 --> 30:55.360
Auf dieser Arbeitskurve sucht man sich einen Punkt aus,

30:55.400 --> 30:56.340
auf dem man arbeiten möchte.

30:56.960 --> 30:58.920
Haben wir hier Kreide, auf der man...

30:58.920 --> 31:01.280
Gibt es noch so klassische Medien?

31:02.900 --> 31:03.700
Ah ja, sehr schön.

31:05.280 --> 31:05.820
Das heißt,

31:06.720 --> 31:08.240
Grün auf Grün ist nicht so die beste Wahl.

31:11.340 --> 31:12.460
Wir haben auf einer Seite

31:12.460 --> 31:14.140
die Erkennungsrate,

31:14.500 --> 31:16.520
also die True Positives und auf der

31:16.520 --> 31:17.840
anderen Seite die False Positives.

31:18.380 --> 31:20.420
Desto höher man bei dieser Erkennungsrate kommt,

31:21.140 --> 31:22.240
desto mehr

31:22.240 --> 31:23.580
False Positives erzeugt man.

31:24.600 --> 31:26.900
Hier oben sind von mir aus die 100%.

31:26.900 --> 31:28.120
Und

31:28.120 --> 31:30.180
das geht gegen Unendliche hier unten.

31:31.000 --> 31:31.800
Das heißt,

31:32.720 --> 31:34.360
wenn das hier zum Beispiel, wenn man jetzt hier

31:34.360 --> 31:36.380
diesen Arbeitspunkt wählt, dann heißt

31:36.380 --> 31:38.400
das, wir haben von mir aus

31:38.400 --> 31:40.460
80% Erkennungsrate und ein Falsch-Positiv

31:40.460 --> 31:42.380
im Monat. Wenn dieser Arbeitspunkt natürlich

31:42.380 --> 31:44.220
falsch gewählt wird, dann

31:44.220 --> 31:46.460
kann das natürlich zu Problemen führen. Jetzt ist auch die Frage,

31:46.560 --> 31:48.480
haben Sie zum Beispiel eine Stereo-Kamera drin oder arbeiten Sie

31:48.480 --> 31:50.660
mit Radar? Sowohl als auch.

31:51.040 --> 31:52.540
Beides. Gut, dann muss ich mich

31:52.540 --> 31:54.520
für das System entschuldigen. Da haben die Kollegen von der Serie

31:54.520 --> 31:56.440
irgendwo was gewählt. Ich kann das nicht

31:56.440 --> 31:58.300
bestätigen. Ich fahre auch selber die S-Klasse regelmäßig

31:58.300 --> 32:00.580
von unserem Team aus und habe keine Probleme

32:00.580 --> 32:02.520
in die Richtung. Also ich war ja bei Ihnen in der Zentrale

32:02.520 --> 32:04.300
und die haben mir das bestätigt, dass sich alle Kunden drüber

32:04.300 --> 32:06.000
beschweren. Ah ja, gut.

32:06.560 --> 32:08.500
Aber das liegt dann auch

32:08.500 --> 32:10.380
unter anderem am Zulieferer und solchen Produktionen. Wir sind die

32:10.380 --> 32:11.820
reine Forschung am Anfang. Aber ja.

32:11.820 --> 32:20.880
Ja, die Frage wäre, wenn Sie das so schön dargestellt haben, könnte man denn diesen Kennpunkt auf der Linie verschieben in der Serie, dass man das nachträglich ändert?

32:21.580 --> 32:23.060
In der Serie? Keine Ahnung.

32:24.780 --> 32:32.180
Diese Teile, die wirklich in der Serie arbeiten, bei uns, wenn man unsere Versuchsträger sieht, unsere Autos, da stehen hinten drei oder vier richtig dicke Rechner drin.

32:32.680 --> 32:36.480
Wir haben unsere Kamera vorne, wir haben komplett andere Technik als in der Serie.

32:36.660 --> 32:40.260
Das funktioniert so, die Algorithmen, die wir entwickeln, haben wir gezeigt, es funktioniert.

32:40.260 --> 32:44.340
dann darf irgendein Zulieferer, Bosch zum Beispiel, das Ganze nochmal implementieren.

32:44.540 --> 32:46.300
Kann man die Schuld gleich zum Nächsten geben, ja.

32:47.200 --> 32:49.660
Nochmal implementieren, weil wir gesagt haben, das muss doch gehen

32:49.660 --> 32:52.460
und die Armen dürfen das dann so programmieren, dass das Ganze ordentlich funktioniert.

32:52.900 --> 32:58.680
Wenn die das dann aus Sicht der Anforderungen des Lastenheftes richtig bestellt haben,

32:59.460 --> 33:01.560
dann heißt das noch lange nicht, dass das dann auch das ist, was der Kunde will.

33:02.760 --> 33:05.340
Das ist das, was dann irgendwie bei uns wieder welche sich ausgedacht haben,

33:05.420 --> 33:08.740
da muss das doch alles funktionieren und am Ende kann sein, dass ein Produkt bei rumkommt,

33:08.740 --> 33:11.200
aber in dieser langen Kette stecke ich nicht drin.

33:11.420 --> 33:12.320
Aber das schließe ich nicht aus.

33:12.340 --> 33:14.300
Also wenn Sie Interesse haben, können wir nachher noch mal zusammensitzen.

33:14.380 --> 33:17.740
Ich habe ein paar schöne Videos aus der Dashcam, die das zeigt, wie blöd das System arbeitet.

33:18.140 --> 33:18.340
Okay.

33:19.620 --> 33:19.940
Danke.

33:25.180 --> 33:26.080
Gibt es noch Fragen?

33:31.100 --> 33:34.440
Ich hätte die Frage, ob da Wärmebildkamera nicht auch ein großes Thema ist,

33:34.440 --> 33:38.080
gerade zur Fußgängererkennung oder Tiererkennung für die Geschichten?

33:38.700 --> 33:45.180
Also die Wärmebildkamera kam, wir haben eine in Serie auch, die kam ins Fahrzeug damals so als schickes Add-on,

33:45.180 --> 33:50.880
dass manche Fahrer zeigen, guck mal wie schön ich hier auf der Straße irgendwelche warmen Objekte wie ein Tier oder ein Menschen sehen kann.

33:52.200 --> 33:59.980
Es gibt mittlerweile, dass da drinnen auch die Tiere erkannt werden, also auch Menschen, warme Objekte in die Richtung erkannt werden.

34:00.340 --> 34:03.380
Und wir hatten sogar eine studentische Arbeit, auch wieder mit der HDM zusammen,

34:03.380 --> 34:09.780
der hat explizit mal untersucht, dass man mit dieser Infrarotkamera

34:09.780 --> 34:13.400
oder mit einer ähnlichen Infrarotkamera Fahrzeuge erkennen kann.

34:13.580 --> 34:15.640
Also ja, die Wärmekamera ist ein Thema.

34:15.900 --> 34:21.580
Das Problem ist, hier steht das Verhältnis von Nutzen zu Kosten ist nicht so gut.

34:21.980 --> 34:22.900
So eine Kamera ist nicht billig.

34:23.040 --> 34:24.840
Die wird noch nicht in jedes Auto reingebaut.

34:24.940 --> 34:26.280
Sie hat eine sehr geringe Auflösung.

34:26.700 --> 34:28.820
Die Serienkamera hat 320x240.

34:28.820 --> 34:30.180
Wir können nicht weit schauen mit so einem Teil.

34:30.860 --> 34:33.040
Und der Zusatzgewinn, den wir dadurch haben, ist minimal.

34:33.380 --> 34:37.360
Von daher ist bis jetzt nichts davon wirklich so, dass es entscheidend ist in der Serie.

34:54.940 --> 35:00.360
Dann direkt darauf aufsetzen, wie sieht es dann nachts aus, ohne Infrarot und Co.?

35:00.360 --> 35:04.340
Mit der Kamera sieht es nachts natürlich schwierig aus.

35:04.800 --> 35:05.840
Nicht unmöglich, aber schwierig.

35:06.120 --> 35:08.340
Wir reden jetzt auch wieder zwischen Serienstand und Entwicklungsstand.

35:08.940 --> 35:12.860
In Serie wird meines Wissens nachts auch was mit der Kamera gemacht,

35:12.960 --> 35:16.720
aber hauptsächlich aufs Radar verlassen, weil das lichtunabhängig ist.

35:17.640 --> 35:19.440
Aber klar, das ist ein ganz anderer Aufwand.

35:19.960 --> 35:22.780
Nachts, wenn man ein Fahrzeug versucht zu erkennen, erkennt man das an den zwei Lichtern.

35:22.840 --> 35:26.260
Man erkennt das nicht mehr an der Kontur, an der Struktur, die da drin ist.

35:26.800 --> 35:28.840
Das ist auch ein Punkt, den ich vorhabe, den nächsten Mal zu analysieren.

35:28.840 --> 35:31.860
was passiert denn, wenn wir diese ganzen Bilder, da fehlen uns auch wieder die Trainingsdaten,

35:32.320 --> 35:36.120
mal auch nachts entsprechend trainieren und mal gucken, was dann auch diese Netze dazu sagen,

35:36.280 --> 35:37.920
bevor wir jetzt irgendwas speziell dafür engineeren.

35:38.420 --> 35:42.720
Und bisher hieß es immer, lasst uns doch erstmal das Tagproblem perfekt lösen oder annähernd perfekt lösen,

35:43.140 --> 35:45.140
bevor wir uns zu sehr auf das Nachtproblem stürzen.

35:58.840 --> 36:10.120
Ganz grundsätzliche Frage zum Deep Learning. Sie haben vorhin gesagt, dass das Thema irgendwie zehn Jahre brach lag, bis man dann entdeckt hat, okay, damit kann man doch deutlich mehr machen als andere Technologien.

36:10.800 --> 36:19.220
Gibt es denn jetzt gerade irgendwas, wo Sie sich vorstellen könnten, das liegt jetzt gerade brach und vielleicht in zehn Jahren kommen wir auf die Idee, dass das vielleicht besser ist als Deep Learning?

36:20.140 --> 36:28.680
Also historisch gesehen ist es immer ganz interessant. Ich bin noch nicht so lange dabei. Ich kenne es immer nur so von meinem Prof und von anderen älteren Generationen. Es kommt alles immer wieder.

36:28.840 --> 36:43.440
Kleines Beispiel, in den 80er Jahren waren Entscheidungsbäume, habt ihr vielleicht in der Informatik auch mal in der Grundvorlesung gehabt, der Hype, das geht schön flott, das ist ganz gut und plötzlich waren die wieder tot, da kamen die neuronalen Netze auf.

36:43.440 --> 37:04.620
Nach den neuronalen Netzen kamen dann so ein bisschen Support Vector Machines auf, das war so ein mathematisch tolles Modell, man kann damit hochdimensional alles mögliche unterscheiden und trennen und dann parallel dazu kamen auch plötzlich wieder Random Decision Forests auf, das heißt man hat da erfunden, oh man kann doch diese Bäume noch wesentlich von der Überanpassung wegbekommen, indem man da so einen Zufallsfaktor mit reinschaufelt.

37:04.620 --> 37:07.020
und jetzt hat man mittlerweile

37:07.020 --> 37:08.940
festgestellt, ach ne, diese neuronalen Netze, die wir da

37:08.940 --> 37:10.900
in den 90ern hatten, die lange totgeklaubt waren, weil

37:10.900 --> 37:12.900
die haben so viele Parameter und das können wir gar nicht alles

37:12.900 --> 37:15.000
richtig schätzen und wir wissen gar nicht, was da drinnen

37:15.000 --> 37:17.100
passiert, sind jetzt wieder aufgeploppt.

37:17.420 --> 37:18.960
So jetzt die Frage, wenn wir diesen Zyklus jetzt weiter

37:18.960 --> 37:19.760
gehen an dieser Stelle,

37:20.240 --> 37:22.940
gibt es vielleicht bei Support Vector Machines plötzlich

37:22.940 --> 37:24.880
irgendeinen Kniff, wo man dann wieder mehr

37:24.880 --> 37:26.060
sehen kann an der Stelle?

37:26.740 --> 37:28.460
Ich kann es nicht sagen. Ich weiß es nicht.

37:28.960 --> 37:30.840
Ich wüsste jetzt auch nicht, was da in der Schublade ist.

37:30.940 --> 37:32.820
Das ist gerade so, wo sich alle drauf stürzen auf

37:32.820 --> 37:34.400
dieses Thema, dass plötzlich ein bisschen abäppen

37:34.840 --> 37:36.640
Ja, das funktioniert gut, das Thema, aber wie gesagt,

37:36.700 --> 37:38.240
der Hype ist vielleicht größer als das, was dann

37:38.240 --> 37:40.960
im Endeffekt auch wirklich hundertprozentig damit funktioniert.

37:42.080 --> 37:43.020
Aber ich schließe nicht aus,

37:43.100 --> 37:44.740
dass dann vielleicht auch in Kombination mit den

37:44.740 --> 37:46.420
neuen Erkenntnissen auch später

37:46.420 --> 37:48.600
wieder Sachen aufkommen, dass man vielleicht doch mal

37:48.600 --> 37:50.780
eine spezielle Vorverarbeitung

37:50.780 --> 37:51.380
macht, die

37:51.380 --> 37:54.740
heute nicht denkbar ist und die vielleicht mit den Netzen nicht

37:54.740 --> 37:56.880
lernbar ist.

37:57.280 --> 37:57.900
Weiß ich nicht.

37:59.020 --> 38:00.660
Oder wo das Lernen so aufwendig ist vielleicht auch.

38:00.740 --> 38:02.560
Und dann sagt man, man lenkt es doch ein bisschen in die Richtung.

38:04.400 --> 38:07.180
Aber werden wir sehen in fünf Jahren, zehn Jahren, weiß ich nicht.

38:19.600 --> 38:25.100
Noch eine andere Frage. Gibt es auch die Idee, dass man quasi, wenn so ein Fahrzeug in die Serie kommt,

38:25.240 --> 38:32.280
die Erkenntnisse, die das Fahrzeug hat, wieder zurück zu koppeln und zurück ins System schweißt, dass das alles lernt?

38:32.280 --> 38:48.200
Ja, die Idee gibt es. Bei Tesla wird das auch behauptet, dass das so passiert. Die haben ja jetzt in Serie sehr mutig, muss ich sagen, over the air was eingespielt, ein Update, was angeblich, ich kann mir das gar nicht vorstellen, wie das funktionieren soll, Bilder auch wieder zurückliefert an irgendeinen Server.

38:48.760 --> 38:50.500
Also das wird nicht ständig eine Kommunikation sein,

38:50.580 --> 38:53.180
aber vielleicht bei Problemfällen Situationen zurückliefern.

38:53.280 --> 38:56.320
Ich weiß von anderen Teams, die daran arbeiten,

38:56.420 --> 38:58.960
wie zum Beispiel Uber, dieses Taxiunternehmen

38:58.960 --> 39:00.740
oder Pseudotaxiunternehmen aus den USA,

39:00.860 --> 39:01.800
die auch an dem Thema forscht.

39:02.240 --> 39:03.960
Die planen, auch Google zum Beispiel,

39:04.100 --> 39:07.040
die planen Millionen von Kilometern mit ihren Fahrzeugen

39:07.040 --> 39:08.620
dann zu fahren und jeden Problemfall aufzuzeichnen

39:08.620 --> 39:10.180
und das gleich wieder automatisch zu trainieren.

39:10.680 --> 39:12.080
Dass das Fahrzeug on the fly,

39:12.380 --> 39:14.400
unabhängig von allen anderen Fahrzeugen was lernt,

39:14.400 --> 39:15.360
sehe ich als gefährlich.

39:15.920 --> 39:17.240
Das kann sein, dass das dann nicht irgendwo

39:17.240 --> 39:21.220
ein lokales Optimum bewegt, was kein Optimum ist, sondern eher eine

39:21.220 --> 39:25.160
schlechtere Situation als die Ausgangssituation. Das ist auch überlegt worden,

39:25.260 --> 39:28.700
das ist auch diskutiert worden, sowas ist bis jetzt aus diesem Risiko der Überanpassung

39:28.700 --> 39:32.060
verworfen worden. Das heißt in die Richtung nein.

39:40.500 --> 39:43.360
Ich hätte dazu direkt was zu sagen und zwar wir haben

39:43.360 --> 39:48.380
noch einen Masterstudenten zur Zeit bei ihren Kollegen in Palo Alto arbeiten.

39:48.960 --> 39:51.180
Und das ist ein ganz interessantes Konzept, was die machen.

39:51.280 --> 39:54.320
Die lassen eine KI mitfahren.

39:54.560 --> 39:57.540
Also man hat ganz normal den Fahrer, den Testfahrer von Daimler.

39:58.120 --> 40:00.800
Der fährt ganz viele Kilometer und die KI fährt mit.

40:01.280 --> 40:04.940
Und die KI macht ihre Entscheidungen, hat aber natürlich keinen Zugriff auf die Aktoren,

40:05.440 --> 40:09.400
sondern man merkt sich einfach, was würde sie machen und vergleicht dann sozusagen,

40:09.400 --> 40:14.400
was macht die KI, was macht der wirkliche Fahrer und von diesem Fehlersignal

40:15.040 --> 40:19.140
belahnt man dann auch wieder ein tiefes neuronales Netz.

40:20.040 --> 40:24.040
Also in diese Richtung gibt es schon auch Forschungsarbeit.

40:25.680 --> 40:29.740
Aber dann wirklich in einem Serienprodukt sehe ich als, das muss diskutiert werden,

40:29.820 --> 40:32.800
wieder von der Rechtsabteilung und ähnlich, das kann gefährlich sein.

40:39.400 --> 40:48.980
Eine der Bestandteile war ja, dass man dieses Netz, wie zum Beispiel bei dem AlexNet,

40:49.700 --> 40:54.960
aufwendig vortrainieren muss und es dann auch später auf mehr oder weniger aufwendig,

40:55.140 --> 41:00.960
jedenfalls macht man das nicht selbst, und dann später auch verschiedene Probleme anwenden kann,

41:01.040 --> 41:02.340
wo man es dann nochmal nachtrainiert.

41:03.160 --> 41:06.060
Funktioniert das denn allgemein oder funktioniert das nur,

41:06.060 --> 41:10.040
wenn die Probleme zu einer gewissen ähnlichen Klasse von Problemen gehören.

41:10.220 --> 41:15.520
Ich könnte mir vorstellen, ob ich jetzt Brücken erkenne oder Autos oder Gebäude oder Menschen,

41:15.620 --> 41:18.380
das ist alles ein bisschen ähnlich, da brauche ich jedes Mal Kantenerkennung.

41:18.780 --> 41:25.380
Doch eigentlich, wenn ich jetzt hergehen würde und würde abstrakte Kunst klassifizieren wollen,

41:25.480 --> 41:27.960
dann könnte die Vortrainierung vielleicht unbrauchbar sein.

41:28.240 --> 41:31.840
Das ist richtig. Also es gibt für uns Aufgaben, die wir festgestellt haben,

41:31.840 --> 41:35.280
lasse uns lieber von Scratch, also von komplett neuem Netz,

41:35.360 --> 41:38.640
einem random initialisierten Netz trainieren, als von diesem vorinitialisierten.

41:41.600 --> 41:44.980
Das, was vorhin Professor Maucher gesagt hat, das mag für die Universitäten gelten,

41:45.100 --> 41:49.360
dass man lieber das klassische Netz nimmt, weil uns die ganzen Daten fehlen

41:49.360 --> 41:51.560
und die Rechenpower fehlt, das nochmal zu trainieren.

41:51.640 --> 41:54.100
Das heißt, wir könnten alternativ nur wieder das Image-Net nehmen,

41:54.160 --> 41:55.100
wo viele Daten da sind.

41:55.480 --> 41:58.060
Wir könnten das mit ähnlichen Parametern neu trainieren,

41:58.060 --> 42:00.480
über Monate hinweg auf irgendeiner teuren Grafikkarte

42:00.480 --> 42:02.300
in irgendeinem teuren Rechner, der dann

42:02.300 --> 42:03.720
aber kompliziert ist für diese Aufgabe.

42:04.900 --> 42:06.420
Wir sagen, wir haben halt

42:06.420 --> 42:08.300
andere Datensätze, die uns zur

42:08.300 --> 42:10.400
Verfügung stehen, die nicht öffentlich

42:10.400 --> 42:12.240
sind, die wesentlich mehr Bilder haben, vielleicht

42:12.240 --> 42:14.340
als ImageNet. Also wir reden da von

42:14.340 --> 42:16.480
mehreren Millionen, nicht von 1,6 Millionen,

42:16.600 --> 42:17.240
sondern von

42:17.240 --> 42:19.400
größeren Millionenbeträgen.

42:20.120 --> 42:22.280
Da lohnt es sich dann auch wieder von Scratch auf zu

42:22.280 --> 42:24.000
trainieren und auch explizit diese Datensätze.

42:24.120 --> 42:26.060
Und dieses Feintuning, was man da macht,

42:26.060 --> 42:28.300
was so empfohlen wird. Man nimmt den

42:28.300 --> 42:30.040
Original-Datensatz, man nimmt

42:30.040 --> 42:32.100
diese Netzstruktur, die da vorhanden ist

42:32.100 --> 42:34.220
und ändert dann, da kann man so ein bisschen

42:34.220 --> 42:35.960
die Gewichte einstellen. Wir möchten jetzt den letzten Layer,

42:36.040 --> 42:38.180
den Ausgabe-Layer stark für unsere Aufgabe

42:38.180 --> 42:39.800
neu trainieren, vielleicht noch den Layer drunter

42:39.800 --> 42:42.360
und alle untersten Layer, die fasst man gar nicht mehr an

42:42.360 --> 42:43.700
am besten, so gut wie gar nicht mehr an.

42:44.700 --> 42:46.500
Das kann man natürlich dann dementsprechend variieren.

42:46.640 --> 42:48.140
Das soll heißen, wenn man zum Beispiel komplett andere

42:48.140 --> 42:50.080
Input-Daten hat, zum Beispiel möchte

42:50.080 --> 42:51.240
jetzt plötzlich Mikroorganismen

42:51.240 --> 42:54.500
in Mikroskopieaufnahmen analysieren,

42:54.980 --> 42:58.400
Dann würde ich doch stark empfehlen, vielleicht auch schon vorher ein stärkeres Training,

42:58.500 --> 43:00.800
also wenn man wirklich mit ImageNet initialisieren möchte,

43:01.480 --> 43:06.680
eventuell vorher die Schichten, die Anfangsschichten vielleicht doch noch ein bisschen mehr zu gewichten,

43:06.780 --> 43:10.240
dass sie stärker neu trainiert werden oder vielleicht doch genügend Daten zu labeln

43:10.240 --> 43:13.960
und da vielleicht mit einer ähnlichen Aufgabe, die man leichter labeln kann,

43:14.020 --> 43:17.200
wie zum Beispiel hier ist ein Mikroorganismus drin, hier nicht oder was weiß ich,

43:17.680 --> 43:20.260
vorher schon mal kräftig vor trainieren und dann seine spezielle Aufgabe,

43:20.260 --> 43:22.800
wo man weniger Trainingsdaten hat, weil sie schwieriger sind zu bekommen,

43:23.500 --> 43:26.400
da lieber nochmal ein kleineres Feintuning zu machen.

43:27.400 --> 43:28.620
Ist aus meiner Sicht sinnvoller.

43:35.560 --> 43:41.480
Sie haben jetzt vorher gesagt, dass Tesla hat es ja schon im Einsatz, die selbstfahrenden Fahrzeuge.

43:42.480 --> 43:48.420
Und Daimler hat ja auch das Projekt, den Future Truck 2020 mit 2020 als Ziel,

43:48.580 --> 43:51.460
den autonomen Truck auf die Straßen zu kriegen.

43:51.820 --> 43:57.160
Was würden Sie persönlich sagen, was realistisch ist als Jahreszahl, grobe Abschätzung?

43:57.420 --> 44:02.460
Erstmal, was Tesla in Serie hat, ist, also was jetzt over the air rauskam,

44:03.640 --> 44:08.540
ist im Endeffekt das, was wir in der S-Klasse seit zwei Jahren drin haben, nur nochmal vielleicht eine Generation weiter.

44:08.540 --> 44:12.240
Also das ist jetzt nicht so, dass das Ding einen Autonomen durch die Stadt fährt.

44:12.440 --> 44:15.420
Das ist so ein bisschen auf der Autobahn. Ich bin selber noch nicht gefahren, so nachdem, was ich gelesen habe.

44:16.000 --> 44:20.440
Soll es relativ gut funktionieren. Von einer Firma wie Tesla werden Fehler noch leichter,

44:21.460 --> 44:23.540
toleriert. Also da kommen dann so Nachrichten wie

44:23.540 --> 44:25.380
How Tesla

44:25.380 --> 44:27.080
Tried to Kill Me. Das wird dann mit einem

44:27.080 --> 44:29.400
Finger-Smiley und sowas noch bei YouTube

44:29.400 --> 44:31.360
gepostet. Wenn das von Daimler gekommen wäre,

44:32.180 --> 44:33.500
die Kunden sind anspruchsvoller.

44:33.920 --> 44:35.000
Der Herr vorhin hat sich

44:35.000 --> 44:37.220
über die aktuelle

44:37.220 --> 44:38.600
Serientechnologie ausgiebig

44:38.600 --> 44:40.600
gewundert.

44:43.380 --> 44:45.120
Die Frage ist, was heißt realistisch?

44:45.840 --> 44:46.960
Es ist eine Evolution.

44:47.260 --> 44:49.360
Bei uns sagt man immer, es ist keine Revolution, es ist eine

44:49.360 --> 44:51.540
Evolution. Wenn man überlegt, das autonome

44:51.540 --> 44:53.580
Fahren hat eigentlich mit dem Tempomaten angefangen.

44:54.280 --> 44:55.660
Das heißt, der Wagen konnte selbstständig

44:55.660 --> 44:57.540
eine Geschwindigkeit halten, ohne dass er die Umgebung

44:57.540 --> 44:59.500
erfasst hat. Es kam irgendwann

44:59.500 --> 45:01.620
die Distronic hinzu, das heißt, man konnte

45:01.620 --> 45:03.520
den Abstand zum Vordermann halten, indem man einfach

45:03.520 --> 45:05.580
da reingesetzt hat und gesagt hat, okay, da vorne

45:05.580 --> 45:07.520
ist einer so und so weit weg. Als nächstes

45:07.520 --> 45:09.200
kam eine Lenkung dazu,

45:09.480 --> 45:10.820
eine Querregelung nennt sich das,

45:11.180 --> 45:13.500
dass man die Spur noch erkennt und vielleicht auch

45:13.500 --> 45:15.480
das vorausfahrende Objekt noch erkennt und

45:15.480 --> 45:17.540
darauf dann eine gewisse Lenkung

45:17.540 --> 45:19.660
mit einbaut. Das funktioniert einigermaßen

45:19.660 --> 45:21.640
gut. Ich denke mal, der Herr da oben

45:21.640 --> 45:23.600
wird auch sagen, dass das nicht in 100% der Fälle

45:23.600 --> 45:25.600
funktioniert und sicherlich kein Nickerchen daneben

45:25.600 --> 45:27.200
machen kann. Aber es ist schon eine

45:27.200 --> 45:28.680
Erleichterung, wenn man es nutzt.

45:29.740 --> 45:31.660
Die nächsten Stufen werden sein, das Ganze

45:31.660 --> 45:32.800
zuverlässiger auch zu machen.

45:33.420 --> 45:35.300
Es gibt natürlich auch immer noch rechtliche Fragen.

45:35.440 --> 45:37.400
Wie ist es überhaupt, wenn ich, wie lange

45:37.400 --> 45:39.180
darf der Fahrer die Hände vom Lenkrad haben,

45:39.520 --> 45:41.120
ohne aus der Verantwortung gezogen zu werden?

45:41.520 --> 45:43.360
Kann man alternativ vielleicht den Fahrer beobachten

45:43.360 --> 45:45.560
mit einer Kamera, dass er aufmerksam ist?

45:45.940 --> 45:47.260
Dass der Fahrer weiterhin der Verantwortung ist?

45:47.260 --> 45:52.760
Und der größte Schritt, der schwierigste Schritt ist, wenn man erstmal sagen kann, wir brauchen den Fahrer für einen gewissen Zeitraum gar nicht mehr.

45:53.380 --> 46:01.760
Beispiel, wir fahren auf der Autobahn manuell auf, schalten einen vollautonomen Poloten ein, der von jetzt an von Autobahnauffahrt bis zur nächsten selber fährt,

46:01.940 --> 46:07.600
rechtzeitig eine Minute vorher versucht den Fahrer zu wecken oder was auch immer, wieder Bereitschaft zu erklären und der Fahrer übernimmt wieder.

46:08.320 --> 46:10.700
Das wäre ja schon mal eine Art des hochautonomen Fahrens.

46:10.700 --> 46:12.580
der nächste Schritt oder beziehungsweise

46:12.580 --> 46:14.740
ganz am Ende dieser Kette steht es, dieses

46:14.740 --> 46:17.400
vollautonome Fahrzeug, was überhaupt keine Fahrerinteraktion

46:17.400 --> 46:19.160
mehr braucht und jede einzelne Straße auf der Welt

46:19.160 --> 46:20.760
perfekt beherrscht. Das

46:20.760 --> 46:23.080
wird es in meinem Lebenszeitraum wahrscheinlich

46:23.080 --> 46:24.700
nicht geben. Aber

46:24.700 --> 46:27.200
diese Zwischenstufen, diese stufenweise

46:27.200 --> 46:28.820
Entwicklung wird vorangehen.

46:29.280 --> 46:30.900
Das heißt, ich kann mir Szenarien vorstellen,

46:31.060 --> 46:33.220
dass wir Städte auf gewissen

46:33.220 --> 46:35.240
Straßen beherrschen. Das heißt, wir kommen von jedem Punkt

46:35.240 --> 46:37.160
zu jedem Punkt, aber nicht jede beliebige

46:37.160 --> 46:39.240
Strecke dazwischen. Sowas kann ich

46:39.240 --> 46:40.960
mir vorstellen. Und die Frage ist halt auch,

46:41.520 --> 46:43.140
ja, 2020 wird irgendwas

46:43.140 --> 46:45.340
Autonomes kommen. Aber wie viel

46:45.340 --> 46:46.880
ist das von dem entfernt, was man sich unter

46:46.880 --> 46:49.260
diesem Vollautonomen vorstellt und wie weit ist es voraus

46:49.260 --> 46:50.160
von dem, was wir jetzt haben?

46:52.100 --> 46:53.040
Ich kann es nicht sagen.

46:53.980 --> 46:55.020
Wir versuchen unser Bestes.

46:55.120 --> 46:56.960
Und es ist halt, was ich hier gezeigt habe,

46:57.300 --> 46:59.060
ist weit weg von der Serie. Das sind mindestens

46:59.060 --> 47:01.560
fünf Jahre, bis sowas überhaupt in der Serie zu sehen ist.

47:02.380 --> 47:02.740
Mindestens.

47:09.240 --> 47:18.020
Gut, ich denke, ich lehne mich nicht so weit aus dem Fenster, wenn ich sage, es wird in den nächsten 100 Jahren nicht so weit sein, dass wir jedes Problem, jede Straße mit einem Auto autonom beherrschen.

47:18.900 --> 47:21.460
Aber wir können uns gerne in 100 Jahren nochmal drüber unterhalten.

47:21.460 --> 47:36.520
Was sind die größten Schwierigkeiten? Wo kommt das System aus dem Tritt?

47:36.520 --> 47:41.700
Wo kann das System fast gar nicht funktionieren oder nur schwierig funktionieren?

47:42.220 --> 47:46.780
Was ist das System? Als das System verstehen, ein hochautonom fahrendes Fahrzeug,

47:46.940 --> 47:48.880
was selbstständig durch den Stadtverkehr kommen will.

47:48.880 --> 48:00.720
Wir waren letztens in China auf einer Konferenz, da sind fünfspürige Autobahnen, die keine Markierungen in der Mitte haben und jedes Fahrzeug willkürlich fährt und jeder Fahrer auf den Vordermann achtet.

48:01.040 --> 48:07.240
Das ist nicht so, man guckt nicht in den Rückspiegel, man fährt einfach, man wechselt die Spur und der Hintermann hat gefälligst aufzupassen, dass ich nicht reinfahre.

48:08.160 --> 48:10.420
Diese Situation kann ich mir im Leben nicht vorstellen.

48:10.420 --> 48:16.900
Wenn wir jetzt aber auf der deutschen Autobahn zum Beispiel schauen, gibt es Sonderfälle einfach.

48:16.960 --> 48:19.360
Zum Beispiel diese Linksausfahrt bei Gärtringen.

48:19.820 --> 48:23.400
Da gibt es eine Ausfahrt, eine von zwei in Deutschland wohl, die nach links rausgeht.

48:23.840 --> 48:27.940
Ob man so einen Sonderfall einfach reinkodieren möchte, ist eine Frage.

48:28.180 --> 48:28.900
Ja, kann man machen.

48:31.320 --> 48:32.380
Wo sind noch Grenzen?

48:32.960 --> 48:35.820
Straßen, die einfach unübersichtlich sind, wo die Sensorik ihre Grenzen hat.

48:35.820 --> 48:36.980
dass wir

48:36.980 --> 48:40.740
wir haben schon relativ viele Sensorik drumherum

48:40.740 --> 48:42.700
aber wir können nie alles hundertprozentig abdecken

48:42.700 --> 48:44.100
wenn man zum Beispiel rein

48:44.100 --> 48:46.060
aus physikalischen Grenzen

48:46.060 --> 48:48.920
kommt ein Wagen an der Kreuzung, wo man mit 100 vorbeigeschossen kann

48:48.920 --> 48:50.980
kommen kann, aber ich kann nur 20 Meter weit schauen

48:50.980 --> 48:52.820
wie soll ich autonom, sicher um diese Kurve

48:52.820 --> 48:53.480
drumherum fahren

48:53.480 --> 48:56.000
solche Grenzen gibt es klar

48:56.000 --> 48:58.700
was man zum Beispiel auch ganz interessant

48:58.700 --> 49:00.420
findet auf der Autobahn, wenn wir zum Beispiel

49:00.420 --> 49:02.180
in einer Linkskurve auf der linken Spur fahren

49:02.180 --> 49:03.660
und wir fahren damit von mir aus 160

49:03.660 --> 49:07.320
und können aber eigentlich nur 40 Meter vor uns schauen.

49:08.000 --> 49:11.360
Wenn da irgendwo eine Kiste liegt, man geht immer davon aus, da ist nichts.

49:11.860 --> 49:15.660
Ein autonomes Fahrzeug muss davon ausgehen, ich kann da so schnell fahren, wie ich bremsen und gucken kann.

49:16.760 --> 49:20.740
Und das heißt, 160 auf dieser linken Spur fahren wird für ein autonomes Fahrzeug zum Beispiel auch nie möglich sein,

49:20.800 --> 49:22.520
weil der Sensor es nicht erlaubt, da hinzuschauen.

49:33.660 --> 49:42.020
Inwieweit ist die Car-to-Car-Kommunikation in dem Bereich relevant?

49:42.340 --> 49:48.280
Also wird da gerade auch schon geforscht, dass man versucht, mit mehreren Fahrzeugen die Situation besser einzuschätzen?

49:48.760 --> 49:53.860
Also es gibt Car-to-Car und auch Car-to-X oder X-to-X.

49:54.040 --> 49:58.140
Das soll heißen, dass man nicht nur mit den anderen Fahrzeugen kommuniziert, sondern vielleicht auch mit der Infrastruktur.

49:59.100 --> 50:06.960
Ich habe vorhin mal so ganz kurz die Ampeln gezeigt, die so ein Riesenproblem sind, die zu finden, diese kleinen Pünktchen, die auf der Kamera durch die Sonne vielleicht noch alle überstrahlt werden und kaum zu sehen sind.

50:07.060 --> 50:17.080
Wäre es nicht sinnvoller, dieses elektronische Gerät sendet an alle Umgebenden, ich bin Kamera XY, Entschuldigung, Ampel XY und bin gerade auf Rot.

50:17.540 --> 50:19.600
Das wäre zum Beispiel eine Kommunikation, die möglich wäre.

50:20.500 --> 50:22.240
Ja, in die Richtung wird geforscht insgesamt.

50:22.800 --> 50:24.860
Die Frage ist dann halt auch, wie sehr kann man sich darauf verlassen.

50:24.860 --> 50:50.060
Ja, ist dann nicht, wenn wir diese Car-to-Car-Kommunikation haben und ein Auto sagt jetzt, ach hier ist frei vor mir, da kannst du ruhig langfahren. Das hat aber jetzt irgendein Hacker das Signal gesendet und nicht ein anderes Fahrzeug. Es gibt Forschung in die Richtung, ja. Ich denke, es wird nicht in den nächsten Jahren direkt so ins Fahrzeug kommen, weil es einfach noch sicherheitskritisch auch ist, aber dazu kann ich auch komplett falsch liegen. Das ist auch nicht mein Fachbereich an der Stelle.

50:50.060 --> 50:56.360
Ich schließe es nicht aus, dass es kommen wird. Es wird vieles erleichtern, aber es eröffnet halt auch neue Schwachpunkte.

50:56.360 --> 51:07.480
Inwiefern wird hier auf deutsche Straßen gelernt?

51:07.680 --> 51:09.800
Also man hat ja bestimmt das Problem, wenn man in andere Länder geht,

51:10.080 --> 51:12.840
dass da andere Begebenheiten sind, zum Beispiel England,

51:12.840 --> 51:14.020
wäre ja schon mal Linksverkehr.

51:15.740 --> 51:18.540
Wird da nicht stark nur auf einem Land gelernt?

51:18.780 --> 51:20.940
Und wird das dann später so sein, dass ich mir ein Auto kaufe,

51:21.120 --> 51:23.080
wo ich nur in einem Land fahren kann?

51:23.980 --> 51:26.840
Also was ich jetzt hier gezeigt habe, ist weit weg von der Serie.

51:26.960 --> 51:30.500
Das sind alles Prototypen, das sind Sachen, was ist machbar, Machbarkeitsstudien,

51:30.840 --> 51:34.400
die so wahrscheinlich nie ins Fahrzeug kommen, aber die Grundlagen dafür bilden,

51:34.440 --> 51:36.400
für die Algorithmik, die irgendwann ins Fahrzeug kommen wird.

51:37.560 --> 51:41.640
Wenn wir festgestellt haben, dieses Verfahren funktioniert wunderbar in Deutschland,

51:41.640 --> 51:45.000
weil wir das natürlich, wir fahren natürlich extra nach China, um irgendeinen Prototypen zu entwickeln,

51:45.720 --> 51:49.720
wird auch wieder Zulieferer beauftragt, werden Zulieferer beauftragt,

51:49.720 --> 51:55.120
die dementsprechend viel mehr Daten, wesentlich mehr Daten einfahren weltweit.

51:55.540 --> 51:59.720
Dann heißt es dann auch, das System muss da und da funktionieren, überall funktionieren.

52:00.440 --> 52:07.240
Dass es ein System gibt, ein hochautonomes System, was zum Beispiel in allen Städten weltweit fährt, ohne irgendeine Anpassung,

52:07.900 --> 52:09.660
mag ich zu einem jetzigen Zeitpunkt anzweifeln.

52:10.000 --> 52:15.440
Ich kann mir vorstellen, dass für die USA oder zumindest für Amerika und für Europa und für Asien,

52:15.520 --> 52:18.640
also China hauptsächlich für den Markt, angepasste Systeme geben wird.

52:19.120 --> 52:23.480
Diese Systeme werden, wenn man natürlich mal die Route nimmt von China bis nach Europa mit dem Fahrzeug,

52:23.580 --> 52:25.940
nicht überall funktionieren, gleich gut funktionieren.

52:26.500 --> 52:28.300
Die werden schon noch überall funktionieren, aber nicht gleich gut,

52:28.360 --> 52:31.620
weil sie halt für ein spezielles Land, für die spezielle Umgebung angepasst werden.

52:31.700 --> 52:35.820
Weil desto generischer man das Verfahren macht, das heißt, desto abstrakter es denken kann

52:35.820 --> 52:38.000
und desto abstrakter es vielleicht die Welt versteht,

52:38.500 --> 52:42.200
umso anfälliger ist es vielleicht bei speziellen Sachen.

52:42.720 --> 52:47.920
Dass es plötzlich ein deutsches Einbahnschild erkennt, aber es ist in China.

52:47.920 --> 52:52.080
Da macht man dann eher doch vielleicht nochmal eine GPS-bedingte Anpassung, dass das System vielleicht sogar umswitcht.

52:52.500 --> 52:58.760
Dass es dann sagt, okay, du bist von jetzt an in Kasachstan und nicht mehr in China und jetzt nimmst du das gelernte Modell.

52:58.820 --> 53:02.320
Das kann man sich natürlich auch denken an der Stelle. Aber das eine und dasselbe Modell für alles glaube ich nicht.

53:05.080 --> 53:08.880
Zum Thema autonomes Fahren nochmal und auch zum Punkt von Maucher am Anfang.

53:09.340 --> 53:13.260
Also ich habe in den 90ern einige Vorträge über Neuronalien auch schon gehört.

53:13.260 --> 53:17.660
Da war der Vergleichsmaßstab ein bisschen höher angesiedelt. Da war es nicht das Smartphone in der Tasche.

53:17.920 --> 53:21.120
sondern da hat man die neuronale Netze wirklich am Gehirn orientiert.

53:21.620 --> 53:24.020
Und das hier im Vergleich zu dem, was ich im Gehirn mache,

53:24.060 --> 53:26.920
wenn ich im Gehirn damit arbeite, ist das eine Situation,

53:27.140 --> 53:28.580
die würde ich Schlafwandel nennen.

53:29.040 --> 53:32.340
Also ich bin von meiner realen Sensorik noch relativ weit abgekoppelt.

53:32.920 --> 53:34.900
Ich kann zwar Außenreize ertasten,

53:35.640 --> 53:41.620
aber auch die deep neuronalen Netze haben viele grundsätzliche Fragen.

53:41.800 --> 53:44.420
Was ist ein Objekt? Wie wird sowas repräsentiert?

53:44.420 --> 53:46.520
ja nicht gelöst. Ich habe einfach nur

53:46.520 --> 53:48.640
mehr Rechenpower wie in den 90ern.

53:48.720 --> 53:50.660
Ich kann nicht mit tausend Neuronen, sondern ich kann mit

53:50.660 --> 53:52.100
einer Million Neuronen arbeiten.

53:53.000 --> 53:54.800
Das macht es natürlich einfacher, aber löst

53:54.800 --> 53:56.280
viele Grundprobleme der Neuronen.

53:56.740 --> 53:58.780
Warum man sie Ende der 90er ja nicht

53:58.780 --> 53:59.820
weiter verfolgt hat,

54:00.640 --> 54:02.820
bleibt ja weiterhin ein großes Thema, das wir auch

54:02.820 --> 54:04.680
Ende der 90er mit Daimler

54:04.680 --> 54:05.540
oft diskutiert haben.

54:07.140 --> 54:08.680
Das Ganze ist nicht deterministisch.

54:08.960 --> 54:10.260
Wie oft kann ich so etwas

54:10.260 --> 54:12.780
ein Lernverfahren kriegen?

54:12.780 --> 54:30.880
Wie kann ich das wie ein neuronales Netz landen und es repräsentiert? Wie kann das nachher wiederholt werden, transparent wiederholt werden? Wie ist sowas auch im Fall von einem Unfall verwertbar, reproduzierbar? Das sind alles Themen, die gibt es hier auch noch keine Lösung für.

54:30.880 --> 54:37.360
Gerade diese Frage, wie kann man das reproduzieren und wie kann man das in einem Unfall auch verwerten,

54:37.440 --> 54:42.100
diese beiden letzten Punkte sind natürlich allgemein für die Mustererkennung ein großes Problem.

54:42.880 --> 54:45.100
Früher war Bildverarbeitung reine Messtechnik.

54:45.260 --> 54:48.620
Man hat Stereo gemacht, man konnte das reproduzieren, man hat wieder die zwei dieselben Bilder bekommen,

54:48.740 --> 54:50.060
konnte genau sagen, was daraus passiert.

54:50.700 --> 54:56.760
Heute ist diese Lernverfahren, das ist fast immer irgendeine Blackbox, wo Voodoo passiert.

54:56.760 --> 55:00.060
Man weiß, was da passiert, man weiß, wie das technisch funktioniert.

55:00.060 --> 55:02.000
an der Stelle. Man kann es theoretisch auch

55:02.000 --> 55:04.200
reproduzieren, wenn man sich genau merkt, in welcher

55:04.200 --> 55:06.300
Reihenfolge was passiert. Aber

55:06.300 --> 55:08.840
es ist

55:08.840 --> 55:10.220
und bleibt für den Menschen

55:10.220 --> 55:11.940
nicht verständlich, hundertprozentig.

55:12.060 --> 55:13.800
Klar, es gibt Varianten, was man vorhin auch gesehen hat.

55:14.100 --> 55:16.000
Die ersten Layer kann man visualisieren. Man sieht dann so ein bisschen

55:16.000 --> 55:18.240
diese, was Professor Maucher auch vorhin gemeint hat,

55:18.280 --> 55:19.720
man kann Rita erkennen, man kann das erkennen.

55:19.860 --> 55:22.080
Aber nur so die ersten Layer, was da hinten dran dann irgendwann passiert,

55:22.580 --> 55:24.320
das ist ganz schwer nachzuvollziehen.

55:25.080 --> 55:25.400
Und ja,

55:25.900 --> 55:28.100
damit müssen sich dann, muss sich auch die Rechtsabteilung

55:28.100 --> 55:30.160
mal beschäftigen. Das ist ein ganz großer

55:30.160 --> 55:32.000
Punkt auch, wie man das rechtlich alles absichern kann

55:32.000 --> 55:33.960
an der Stelle. Vielleicht muss man da auch aus dem

55:33.960 --> 55:35.540
klassischen Denken mal ein bisschen rauskommen an der Stelle.

55:35.640 --> 55:38.400
Ich habe von diesen rechtlichen Sachen keine Ahnung.

55:39.540 --> 55:41.740
dass man schlafwandelt

55:41.740 --> 55:43.840
und dass das noch dasselbe ist wie in den 90ern,

55:45.960 --> 55:48.060
vielleicht ist es ein Zustand, bei dem

55:48.060 --> 55:49.920
man ein bisschen mehr wach ist als vorher. Das kann schon sein.

55:52.080 --> 55:53.800
Der Vergleich mit dem Menschen ist schwierig

55:53.800 --> 55:55.320
an der Stelle. Ich bin auch kein

55:55.320 --> 55:57.920
Bio-Neurowissenschaftler, aber

55:57.920 --> 56:17.300
Es gibt Tests auf diesen Datensätzen, wo verglichen wird, was denn ein Mensch schaffen würde an der Stelle. Ein Mensch. Jeder Mensch macht das anders, ist ja auch nicht reproduzierbar, die Ergebnisse. Und auch da gibt es, mittlerweile sind diese neuronalen Netze angeblich besser als der Mensch.

56:17.740 --> 56:19.820
Also es gibt genügend Benchmarks, wie es so schön heißt,

56:20.200 --> 56:21.600
wo man das vergleichen kann, man ist besser als der Mensch.

56:21.660 --> 56:23.320
Also ob das dann noch wirklich Schlafwandeln ist,

56:25.520 --> 56:27.140
ja klar, bis zum Verstehen der Situation,

56:27.260 --> 56:28.800
das Gesamtverstehen, was der Mensch hier schafft,

56:29.080 --> 56:30.900
ist es vielleicht noch ein Schritt weiter.

56:31.740 --> 56:32.360
Das kann schon sein.

56:33.120 --> 56:35.860
Es gibt übrigens auch Methodiken, wo man,

56:36.180 --> 56:37.960
das was gerade eben auch erwähnt wurde von Professor Mauch,

56:38.000 --> 56:38.720
ein bisschen in die Richtung geht,

56:39.660 --> 56:42.900
das Fahrzeug, also diese Spiele, die gelernt wurden,

56:42.900 --> 56:44.120
die haben einfach zugeguckt, wie einer spielt.

56:44.200 --> 56:45.280
Und das kann man ja auch mit einem Fahrzeug machen,

56:45.280 --> 57:01.280
Wo dann praktisch zwischendrin alles komplett gelernt wird an der Stelle. Das ist noch mehr Voodoo dazwischen. Das macht es natürlich noch komplexer an der Stelle. Aber auch sowas wäre vielleicht denkbar irgendwann. Aber ja, rechtlich ist das ein ganz großes Fragezeichen. Ja, definitiv. Und auch diese mangelnden 100% sind rechtlich ein Fragezeichen.

57:01.280 --> 57:05.740
Es wird irgendwann den ersten autonomen Toten geben.

57:06.520 --> 57:13.220
Ob dieser autonome, totgefahrene Mensch auch totgefahren worden wäre durch einen Menschen, wenn der am Steuer gesessen hätte, ist eine Frage.

57:13.220 --> 57:21.880
Die andere Frage ist, werden aber nicht durch eventuell sicherfahrende Fahrzeuge insgesamt wesentlich weniger Unfälle passieren und auch wesentlich weniger tödliche Unfälle passieren.

57:22.660 --> 57:28.440
Wenn sich die Rechtsabteilungen dann immer auf diese einzelnen Fälle konzentrieren, die dann doch mal schief gegangen sind, wird es halt schwierig.

57:31.280 --> 57:38.200
Zu dem Punkt autonomes Fahren auch noch eine Thematik beitragen.

57:38.740 --> 57:41.180
Man sieht es ja derzeit auch bei den Google-Autos in den USA,

57:41.800 --> 57:45.680
ist die Problematik ja auch die, dass sich die selbstfahrenden Autos immer die Verkehrsregeln halten müssen.

57:46.280 --> 57:48.060
Die müssen ja irgendwo auch eingelernt sein.

57:48.800 --> 57:52.220
Der Rest der Welt, sprich wir andere Fahrer, tun das aber eben nicht immer.

57:53.200 --> 57:55.740
Was dann schon zu diversen Unfällen auch geführt hat.

57:56.680 --> 58:00.460
Es sind gerade letzte Woche wieder 16 Autos von Google aus dem Verkehr gezogen worden von der Polizei,

58:00.460 --> 58:02.440
wegen Verursachung von Unfällen und zu langsamem Fahren.

58:04.000 --> 58:06.880
Ist dann die Frage, wie kriegt man das mit den Netzen dann eingelernt?

58:06.940 --> 58:08.520
Das ist ja dann eine sehr komplexe Thematik.

58:09.000 --> 58:11.320
Sie haben ja einmal diese Erkennung, wir haben die False-Positive-Rate,

58:11.600 --> 58:14.660
plus die Verkehrsregeln, also es sind sehr komplexe Situationen einfach.

58:14.920 --> 58:17.880
Die Fahrzeuge werden sich immer an die Gesetze halten müssen.

58:18.360 --> 58:20.100
Es wird nicht sein, ich meine, das kennt jeder,

58:20.420 --> 58:23.860
oh Gott, der fährt ja nur 50 im Ort, warum macht er nicht 55 oder irgend so was.

58:24.380 --> 58:25.680
Das wird es nicht geben.

58:25.800 --> 58:28.140
Genauso wie vor ein paar Jahren gab es so die Diskussion,

58:28.140 --> 58:32.700
Es gab diese Navi-Geräte, die selber immer gepiepst haben, sobald man nur ein Kammer über der erlaubten Geschwindigkeit war.

58:33.000 --> 58:36.680
Man konnte das nicht ausschalten. Warum kann man da nicht eine Toleranz einbauen oder sowas?

58:36.760 --> 58:40.380
Es ist rechtlich nicht möglich. Entweder ganz oder gar nicht. Man schaltet dieses System aus.

58:41.680 --> 58:51.620
Dass die Google-Fahrzeuge Unfälle verursacht haben, ist durch eine sehr konservative Fahrweise geschuldet, die vielleicht einem Fahrschüler entsprechen.

58:51.620 --> 59:17.620
Wir, zumindest in den Entwürfen, die es bei uns gibt, diese Future Cars, wir kennzeichnen das Ganze mal eindeutig als autonom fahrendes Fahrzeug. Das Fahrzeug soll sich eindeutig hervorheben im Vergleich zu den Standardfahrzeugen durch Blinken, durch Laufschriften, durch Design, in der Hoffnung, dass andere Fahrer Rücksicht nehmen wie auf eine Fahrschule.

59:17.620 --> 59:19.480
Fahrschule. Also ich fahre

59:19.480 --> 59:21.380
auf ein autonomes Fahrzeug, fahre ich für keine

59:21.380 --> 59:23.500
20 cm Sicherheitsabstand fahren. Das Ding kann

59:23.500 --> 59:25.540
plötzlich irgendwas willkürlich sehen, was nicht da ist

59:25.540 --> 59:26.540
und plötzlich bremsen.

59:27.340 --> 59:29.460
Wenn ich den Sicherheitsabstand aber einhalte, auf dieses

59:29.460 --> 59:31.360
Fahrzeug und das willkürlich bremst und ich selber

59:31.360 --> 59:33.460
aufpasse, dann darf eigentlich

59:33.460 --> 59:35.320
nichts passieren, weil man hat sich ja an die STVO gehalten,

59:35.420 --> 59:37.380
beziehungsweise entsprechenden Gesetze

59:37.380 --> 59:39.480
in anderen Ländern. Weil die Schuld

59:39.480 --> 59:41.600
bei Google, die Unfälle, die passiert sind,

59:41.700 --> 59:43.200
zumindest behauptet, dass Google sind,

59:43.380 --> 59:45.320
entweder weil gerade ein menschlicher Fahrer hinter

59:45.320 --> 59:47.240
dem Google-Steuer war, also hinter dem Google-Fahrzeug war,

59:47.620 --> 59:51.940
oder weil ein anderer, so behaupten sie es, Verkehrsteilnehmer nicht achtsam war.

59:52.280 --> 59:54.240
Das heißt, die Schuld wird dem anderen Verkehrsteilnehmer zugeschoben.

59:55.060 --> 59:57.160
Ob das wirklich im 100% der Fälle ist, weiß ich nicht.

59:57.160 --> 01:00:00.020
Und dass wir den 16 Fahrzeugen aus dem Verkehr ziehen, ist mir neu.

01:00:00.120 --> 01:00:01.460
Ich wusste, dass eins rausgezogen wurde.

01:00:03.060 --> 01:00:03.320
Okay.

01:00:04.320 --> 01:00:06.160
Die Frage ist, was da rechtlich im Nachhinein noch passiert.

01:00:07.080 --> 01:00:08.320
Die haben sich ja an die Gesetze gehalten.

01:00:11.900 --> 01:00:15.100
Also was ich da gelesen habe, war, dass die insgesamt zu langsam unterwegs waren

01:00:15.100 --> 01:00:18.280
und Verkehrsindemisse dargestellt haben, deswegen von der Polizei rausgezogen worden sind.

01:00:18.360 --> 01:00:19.340
Das war die Meldung von dieser Woche.

01:00:19.900 --> 01:00:21.100
Gut, möglich, ja.

01:00:29.320 --> 01:00:32.760
Also ich tue es ungern, aber wir müssen uns ein bisschen im Zeitplan halten.

01:00:33.560 --> 01:00:35.460
Das ist eine sehr interessante Diskussion.

01:00:35.600 --> 01:00:41.260
Vielleicht bietet sich die Gelegenheit noch, dass Sie Fragen an den Herrn Fröhlich in der Pause stellen.

01:00:42.060 --> 01:00:44.260
Also ich würde hier jetzt einen Cut machen.

01:00:45.100 --> 01:00:49.080
Vielen Dank nochmal, Herr Fröhlich, für den interessanten Vortrag und die Diskussion.

