2026-07: AI-assistierte Testfallgenerierung

Shownotes

Über diese Episode: Nachdem in vergangenen Episoden vor allem der Einsatz von KI in der regulatorischen Zulassung beleuchtet wurde, wirft Christian Johner in dieser Folge von "Medical Device Insights" einen Blick tief in die technische Produktentwicklung.

Zu Gast ist Matthias van der Staay von der IMT (Information Management Technology), der sein Unternehmen erfolgreich ins KI-Zeitalter führt. Er teilt exklusive Einblicke, wie sein Team den oft mühsamen und extrem zeitaufwendigen Prozess der Testfallgenerierung für aktive Medizinprodukte durch Künstliche Intelligenz massiv beschleunigt. Die wichtigsten Themen dieser Folge:

Schluss mit der Fleißarbeit: Erfahren Sie, welche Schritte IMT mittlerweile komplett der KI überlässt (wie das Verstehen von Requirements, das Schreiben der Tests und die Verlinkung im ALM-Tool) und warum die finale Freigabe weiterhin zu 100 % menschlich bleibt.
Die KI an der kurzen Leine (Guardrails): Generative KI neigt zum Erfinden. Matthias Vanderste erklärt die drei wichtigsten Hebel (Task-Splitting, Agentic Workflows und Structured Output), mit denen man die KI zwingt, präzise und fehlerfrei zu arbeiten, anstatt zu halluzinieren.
Multi-Agenten-Systeme im Einsatz: Wie verschiedene spezialisierte KI-Agenten bei IMT interagieren – beispielsweise ein Dokumentationsagent, der das firmeninterne Wissen (SOPs, Architekturdokumente) an den Testfall-Agenten weiterfüttert.
Datenschutz & Infrastruktur: Warum das Unternehmen sich bewusst gegen die Nutzung von Cloud-APIs aus den USA oder China entschieden hat und stattdessen massiv in lokal gehostete Sprachmodelle investiert.

Warum Sie diese Folge nicht verpassen sollten: Wenn Sie in der Entwicklung von Medizinprodukten KI-Tools einsetzen, wird Ihnen im nächsten Audit garantiert eine gefürchtete Frage gestellt: "Haben Sie diesen KI-Einsatz eigentlich validiert?"

Hören Sie in dieser Episode nicht nur, mit welcher cleveren Evaluierungs-Pipeline Matthias Vanderste seinen Kopf bei dieser Auditoren-Frage elegant aus der Schlinge zieht. Sie erfahren am Ende auch, warum selbst die weltbeste Testfall-KI an ihre Grenzen stößt und welches grundlegende "menschliche" Problem bei den Requirements das Team von IMT als nächstes mit KI lösen muss.

Transkript anzeigen

00:00:00: Drei verschiedene Mechanismen gehört, mit denen ihr die KI's an die Kandare nehmt.

00:00:06: Nummer eins wird zerteilt die Aufgabe Medical Device Insights ein Podcast des Iona Instituts für Medizinproduktehersteller

00:00:16: Behörden

00:00:17: und benannte Stellen.

00:00:19: In den letzten Podcast-Episoden war ja das Thema KI schon relativ prominent.

00:00:23: Sie erinnert sich vielleicht noch an den Podcast mit Andreas Purthe, wo wir darüber gesprochen haben wie wir KI einsetzen können bei der Zulassung bzw.

00:00:32: bei der Prüfung von technischen Dokumentationen.

00:00:35: Ich möchte heute dem Thema treu bleiben in gewisser Weise aber den Fokus ändern und zwar von den rein regulatorischen Überlegungen wirklich auch zu den praktischen Prozessen, den Entwicklungsprozessen Und habe dazu einen Gast eingeladen, mit dem ich heute sprechen möchte.

00:00:52: Wie können wir das auch im Bereich der Entwicklung ganz besonders im Bereich des Testfallgenerierungen nutzen?

00:00:58: Das heißt also für Sie als Zuhörerinnen und Zuhäurer sollten sie wertvolle Informationen rein rausziehen können aus der heutigen Episode wie es ihr auch in Ihrem Unternehmen mit KI eine Beschleunigung erreicht eben gerade im Bereich Testfile, Generierung und vielleicht auch Exekutierung.

00:01:16: Matthias stelle ich am besten ganz kurz vor damit wir wissen wer du bist und natürlich auch alle anderen die jetzt weniger kennen als ich die gewissheit haben dass man dann den Experten hier wieder mit dabei haben wie immer hier im Podcast.

00:01:29: Ja klar herzlichen Dank für die Einladung Christian mein Name ist Mathias van der Steijer und ich bin seit etwa mehr als vier Jahre in CTO bei ihrem Tage Und ein Fokus, den ich mir sozusagen selbst auferlegt habe ist dass ich bemüht bin die IMT bestmöglich sind Zeitalter von AI zu bringen.

00:01:49: Natürlich mache oder entscheide ich das nicht alles alleine sondern kann mich da auf Augenhöge mit einem kleinen Team regelmäßig austauschen.

00:01:59: Was machst du oder was hast du gemacht, bevor du dich um dieses Thema KI gekümmert hast?

00:02:04: Was war so ein bisschen auch deine Vergangenheit in der Entwicklung beispielsweise.

00:02:08: Also ich kenne euch ja schon mehr Jahre, aber das uns vielleicht ganz kurz den Kontext noch mal schildern.

00:02:15: Ja in der Vergangen- heit.

00:02:16: also ursprünglich habe ich vor fünfzehn Jahren bei EMT gestartet als Signal Processing Engineer und dort war ich häufig damit beschäftigt Beatmungsgeräte mitzuentwickeln.

00:02:29: Also vom Background habe ich Elektrotechnik und somit ist auch das Thema AI nicht ganz neu, also auch im Studium.

00:02:36: damals hatten wir da schon Berührungspunkte.

00:02:39: Nicht mit LLMs aber halt mit der klassischen AI.

00:02:42: Das hilft nun natürlich entsprechenden Hintergrund zu haben um das jetzt entsprechend anzuwenden.

00:02:51: Dann lass uns mal das Feld bereiten.

00:02:52: Also ich habe schon so ein bisschen angespäulert gehabt, es geht um Thema Testfälle, Testfallgenerierung jetzt mal Beformets in die Kaide abtauchen.

00:03:01: also was macht man denn normalerweise?

00:03:03: Was sind da so Aufgaben vor denen man steht in diesem Kontext und vielleicht weiß noch ein bissel so die Schwierigkeiten auf die man stößt, was kostet viel Zeit, was macht viel Arbeit oder was nervt er in diesen Bereich?

00:03:16: Also losgelöst von der KI müssen wir das Requirement erstmals verstehen und eine Idee davon haben, wie man es überhaupt testen möchte könnte.

00:03:26: Da braucht es manchmal auch eine Portion Kreativität dazu.

00:03:30: dann wenn man ungefähr eine Idee hat muss man diesen Testkit im OilMtool erzeugen schreiben und mit dem Requirement verlinken.

00:03:39: also da ist sehr viel Doing nötig.

00:03:44: Sobald das gemacht ist, geht es bei uns zumindest in den normalen Review-Prozess.

00:03:49: Also da schaut noch jemand anderes drauf um dann diesen Testcase frei zu geben.

00:03:57: Was zusätzlich aber vorgegnet nötig ist jetzt losgelöst vom reinen Testcase erzeugt ist dass wir in der Firma irgendwie Templates erarbeiten, also dass diese Testcases immer ähnlich strukturiert sind und immer gleich aufgebaut ist.

00:04:14: Nicht, dass jedes Testcase komplett anders aussieht oder auch vorbereitende und nachbereitende Schritte definieren.

00:04:21: Also was muss man vor dem Testcase tun?

00:04:24: Was muss man nach dem Test durchführung tun?

00:04:27: Genau!

00:04:29: Also das beginnt ja dann wahrscheinlich, du hast gerade gesagt man braucht mal ein bisschen Kreativität.

00:04:33: Es hat möglicherweise auch was mit den Akzeptanzkriterien auf der einen Seite zu tun und auf die anderen Seite aber auch vielleicht mit die richtige Testmethodik auszuwählen.

00:04:41: habe ich das richtig vermutet?

00:04:43: Genau!

00:04:44: Und dann hast Du drüber gesprochen, dann kommt Fleißarbeit dazu.

00:04:47: also ich hab gelernt dass alles in ein ähnliches Format auch zu bringen damit ihr da eine Konsistenz habt und natürlich dass alles auch Tool basiert abzubilden, euer ALMP-LM Tool.

00:04:59: Das hört sich dann ein Stück weit auch nach Fleißarbeit an.

00:05:03: Okay jetzt haben wir so eine ganz kurze Übersicht was das getan wird.

00:05:07: Du hast ja schon ganz viele getan.

00:05:08: wo bietet sich die KI besonders an dass sie dich oder euch unterstützt?

00:05:14: Also ganz losgelöst ob Testgenerierung oder nicht ist der KI grundsätzlich sehr gut im Interpolieren und nicht im Extrapolieren.

00:05:23: also das heißt überall wo die KI Interpolieren kann, können wir mit guten Ergebnissen rechnen.

00:05:30: Aber lässt man die KI dann frei erfinden und lässt den Lösungsraum zu groß offen, kommt nicht immer das Gewinnste dabei heraus.

00:05:41: Es eignet sich also Aufgaben, die einigermaßen klar definierbar sind und wo die KI basierend auf Kontext einen eingeschränkten Lösungsrahmen hat.

00:05:50: Und konkret jetzt auf die Testcase-Generierung haben wir das verstehende Requirements der AI überlassen, also dass die AI selbst mal überhaupt versteht und was geht es überhaupt.

00:06:02: Dann die Testcase-Erzeugung sowie das Schreiben und auch die Verlinkung innerhalb des OLM Tools ist komplett automatisiert.

00:06:12: Aber dann die übergeordneten Arbeiten wie zum Beispiel das definierender Struktur, damit die Testcases einheitlich sind.

00:06:20: Das haben wir nach wie vor von Hand gemacht und eher halb beigebracht, so wollen wir es haben.

00:06:27: Und auch das abschließende Review sowie Freigabe, das passiert momentan zu hundert Prozent manuellen.

00:06:34: also jeder Test Case wird hundert prozent noch einmal gereviewt durch einen Menschen um diesen dann entsprechend frei zu geben.

00:06:44: Du hast jetzt schon geschildert, bei welchen Aufgaben ihr aus der KI übergibt welche ihr bei euch behaltet.

00:06:51: Du hast davor auch geschilderd gehabt dass man ihr Grenzen setzen muss.

00:06:56: vielleicht können wir uns ganz kurz mal auch um die über die ganz praktische Implementierung sprechen.

00:07:01: also wie habt ihr das technisch gemacht?

00:07:04: die Grenzen aufgezeigt oder diese Boundaries gesetzt.

00:07:08: Was habt ihr für eine Infrastruktur vielleicht auch aufgebaut?

00:07:11: Also wenn wir jetzt abtauchen können, ein bisschen in die Technik, in das Doing und in das Wie, ich glaube da sind viele daran interessiert.

00:07:17: Ja es ist eigentlich nicht so dass wir eines Tages die Idee hatten los machen wir da eine automatische Test-Generierung.

00:07:25: Es ist eigentlich eine übergeordnete Strategie die wir verfolgen bei Irmte.

00:07:31: Wir haben verschiedene Use-Cases identifiziert und dann darauf aufgeleitet, was wir alles brauchen.

00:07:38: Von dem her ist eine ganze Infrastruktur entstanden und die Testcase Generierung ist nur ein kleiner Teil davon.

00:07:45: Und das uns da wichtig war dass wir diese Arbeiten oder diese Infrastruktur wiederverwendbar und modular sind.

00:07:53: Dass wir so wie beim Lego spielen verschiedene Bausteine zusammen bauen können und auf bestehenden bereits aufbauen können.

00:08:01: Also das ist denke ich wichtig, dass man irgendwie Lösungen sucht die Modular sind und auch für andere Use Cases wiederverwendbar.

00:08:10: ansonsten fängt man da immer wieder bei Null an.

00:08:13: Und was auch ein bisschen speziell ist bei uns wir haben auch uns dazu entschieden lokal gehostete Modelle zu verwenden.

00:08:22: also wir haben bei uns einen Server installiert Sprachmodelle laufen lassen und auch diese Test-Case Generierung basiert komplett auf diesen lokaler Modellen.

00:08:37: Dann braucht es noch weitere Infrastruktur wie beispielsweise Tracing Tools, wo man sogenannte Abläufe auch tracen kann und Debuggen.

00:08:48: also nur das besteht ja meistens nicht nur aus Brummten sondern auch aus Verstehen und analysieren was da genau abgeht.

00:08:56: Von dem her ist es extrem wichtig, dass man von Tag Null daran denkt.

00:09:01: Wie kommen dann auch die Fragen?

00:09:02: Wie kann man analysieren und wenn man das alles über Konsole so wie man es früher gemacht hatte irgendwie aufsetzt ist das relativ mühsam und auch langsam.

00:09:15: Jetzt hast du schon geschildert, wie er das nicht macht.

00:09:18: Also ich komme auch gleich zur Frage.

00:09:20: Hage ich doch ein bisschen hinterher zu Technik?

00:09:22: Du hast aber vorher noch ein anderes Fass aufgemacht gehabt.

00:09:25: Da ist nämlich erwähnt dass ihr das in verschiedenen anderen Bereichen auch mit einsetzt oder sogar den Begriff der Use Cases gerade erwähnten gehabt.

00:09:33: Lass uns ganz kurz da mal reingehen.

00:09:35: was sind denn noch so Bereiche die bei euch eine systematische KI Unterstützung bereits erfahren oder wo ihr das vor habt?

00:09:43: Was wir auch haben, ist ein Dokumentationsagent der Zugriffart auf unsere Dokumentationen wie User specification, Requirements specification, Architekturdokumentation.

00:09:57: Einfach alles was zu dem Projekt dazu gehört.

00:10:00: und wiederum dieser Test Case Agent kann dann diese Dokumentionsagent nutzen in dem also wenn er die Aufgabe hat das Requirement zu verstehen dann muss er das nicht nur basierend auf diesem Requirement machen, sondern er kann diesen Dokumentationsagent nutzen um weiteren Kontext abzuholen.

00:10:25: Um das Requirement und die eventuelle Verweise auch innerhalb des Requirements oder Begrifflichkeiten, die ihm die Requirement verwendet werden genauer zu verstehen.

00:10:35: Aber dieser Dokumentation-Agent kann genauso genutzt werden durch unsere Mitarbeiter.

00:10:41: Das heißt, wenn Sie nun Fragen haben zum Projekt oder zu Anforderungen zur Architektur können die genau gleich diesen Dokumentationsagent nutzen.

00:10:52: Und das meine ich eigentlich mit Modularität, dass man wie gesagt eine mehrere Agents aufbauen kann, die sich gegenseitig wieder verwenden und dann auch komplexere Use Cases aufbauten kann.

00:11:08: Und dieser Dokumentations-Agent, wenn ich es richtig verstanden habe das ist wie so ein Art Knowledge Base wahrscheinlich sowohl zum spezifischen Produkt aber auch irgendwie zu... Ich glaube durchgehört zu haben.

00:11:19: Auch allgemeine Regeln bei euch, Thermologien bei euch.

00:11:22: also das scheint dann sogar ein bisschen breiter zu sein als jetzt nur ein Produkt betreffend.

00:11:26: oder hab' ich das überinterpretiert?

00:11:28: Nein, das ist auch so!

00:11:29: Also wie gesagt sind verschiedene Agenten nicht nur einer Und es gibt auch solche, die auf unsere SOPs Zugriff haben.

00:11:39: Also unsere Prozesse sehr gut verstehen, Zugriffe auf Software-Entwicklungsplanen haben und einfach sämtliche Daten, die wir da zur Verfügung haben verwendet werden oder zumindest zugriffbar ist falls irgendein Agent für wichtige Hälter mehr

00:12:03: zu wissen.

00:12:03: Du hast bereits ein bisschen was über die Technik verraten, nämlich dass ihr eigenes Server betreibt.

00:12:08: Ich weiß bereits das die da allein mehrere KW verbrennen.

00:12:11: Ich habe es auch erwähnt gehabt, dass sie ja Open Source Modelle einsetzt.

00:12:15: an paar Stellen würde ich gerne noch vielleicht ein bisschen nachhaken wenn du gestattest.

00:12:19: Du hast auf der einen Seite gerade gesagt, dass diese Agenten miteinander agieren.

00:12:23: also wenn jetzt vielleicht dann noch ein bisschen technischen Hintergrund gestatten wird oder ob das jetzt irgendwelche MCP Protokolle sind dir einsetzt?

00:12:30: Also das hat mich interessiert Und wir haben von der vorletzten Frage noch einen Loop offen, nämlich wie ihr diese Guardrails jetzt gerade bei der Testfallerstellung implementiert habt.

00:12:41: Also die Wahrscheinlichkeit dass sich die KI verläuft reduziert.

00:12:46: also wie habt ihr das technisch gemacht?

00:12:48: Also zwei Fragen, das eine eben die technische Interaktion zwischen euren Modulen zwischen eurer Agenten und das zweite die Frage nach den Guardrails, nach der Einschränkung der Freiheitsgrade ganz konkret an bei der Testvollerstellung.

00:13:02: Zuerst zu den Guard Rails wie wir sichergestellt haben dass die Agent auch wirklich das tun was sie sollen und sich nicht verrennen?

00:13:10: und zwar verwenden wir da einen sogenannten Agentic Workflow.

00:13:13: sagt man dem im Gegensatz zu den generischen Agent gibt man da relativ genau vor welche Task er in welcher Reihenfolge durchführen muss mit welchem Format und Welchen Einschränkungen.

00:13:29: In Bezug auf die Test-Generierung funktioniert das eigentlich so, dass als erstes hat der Agent die Aufgabe nur das Requirement aus dem OilMtool zu holen und er hat die Aufgabe es einfach zu verstehen um sämtliche Begrifflichkeiten zu prüfen.

00:13:46: Erst wenn das erledigt ist geht es zum ersten Schritt.

00:13:50: und dort geht es denn darum extrahieren vom Facts.

00:13:53: also Solche Requirements bestehen ja meistens als mehr nur eine atomarische Anforderung, sondern das sind inverschachtelte Anforderungen.

00:14:04: Das können bis zu zehn Anforderungspro-Requirement sein und da es hilfreich ist diese Anforderer aufzuteilen einen kleinen Häppchen geben mir dem Agent die Aufgabe diese aufzuteiligen bevor er dann schrittweise sich durch diese einzelnen Facts durcharbeitet.

00:14:23: Nachdem diese Facts aufgegliedert sind und extrahiert sind, hat der Agent die Möglichkeit mögliche Beispiele durchzusuchen.

00:14:34: Also da gibt es ein sogenanntes Beispiel-Tool nennen wir das dass der Agent Zugriff hat und er dann das verwenden kann um mögliche beispiele von Anforderungen und deren Test Cases einzusehen.

00:14:50: Damit kann man relativ gut auch implizite Requirements vorgeben, also bezüglich Struktur wie einen solchen Testcase aufgebaut ist.

00:14:59: Das kann der Agent dann alles aufgrund diesen Beispielen abschauen und er natürlich auch angewiesen dazu ist das möglichst ähnlich zu machen wie es in den Beispielen sichtbar ist.

00:15:11: Erst nachdem er ein Beispiel hat, den ganzen Kontext verstanden hat und die Atomaren Anforderungen extrahiert hat Erfolgt dann die Erstellung des Test Cases.

00:15:24: Und auch da ist er stark eingeschränkt im Output Format, also man nennt das Traktorit Output und es ist eine Methodik oder eine Möglichkeit um ein Format zu erzwingen wo das LLM als Output hat.

00:15:45: Man lässt da nicht beliebige Freiheitsgrade, was er ausgeben muss.

00:15:48: Und er muss genau einer bestimmten Zündtagsfolge.

00:15:52: Lass mich kurz zusammenfassen weil das war jetzt eine Menge Holz.

00:15:54: Ich

00:15:54: habe drei verschiedene Mechanismen gehört mit denen ihr die KI's an die Kandarren nehmt.

00:16:03: Nummer eins, ihr zerteilt die Aufgaben in Kleidehäppchen.

00:16:07: Damit ist die Aufgabe auch einfacher und Verirrungen werden schwerer.

00:16:11: Das zweite, ihr habt Reihenfolge fest vorgegeben und also das heißt unnötige Freiheitsgrade bei dem Abarbeiten, also dieser Sequenz habt ihr bewusst rausgenommen.

00:16:23: Und jetzt dritte Guardrail war, ihr habt auch die Freiheitsgrad beim Output eingeschränkt.

00:16:29: Also liefert vordefinierte Structured Data mit raus.

00:16:34: Mit diesen drei Mechanismen, mit diesem drei Hebeln bekommt ihr die Güte, meine Annahme hin, die er jetzt tatsächlich braucht.

00:16:42: Das ist sehr gut zusammengefasst.

00:16:45: Okay, dann let's switch gears!

00:16:47: Dann gehen wir nochmal ganz kurz zu dem anderen Thema nämlich der Interaktion eurer Agenten.

00:16:54: Da schon da?

00:16:54: Also ich brauche jetzt keine Firmengeheimnisse aber dass man einfach ein bisschen davon lernen kann von paar Best Practices.

00:17:01: Ja also bis jetzt haben wir uns eigentlich noch dagegen entschieden das mit MCP zu machen.

00:17:07: Der Hintergrund ist MCP ist letztendlich auch noch eine... eine API plus, minus und es war einfacher das klassisch über ein Rest API zu machen.

00:17:17: diese Schnittstellen also.

00:17:19: wir bieten dem Agent einfach Tools an und sagen ja wie man's auch macht das sind die möglichen Tools die du verwenden kannst mit entsprechender Tool Beschreibung und geben den entsprechenden Link den er aufrufen kann.

00:17:34: Der Vorteil vom MCP Server ist vor allem wenn man auf das Shelf-Tools beispielsweise miteinander verbinden will, weil diese halt von Haus aus direkt MCP auch unterstützen.

00:17:48: Und dann ist es natürlich einfacher als MCP Server zu exposen.

00:17:53: aber jetzt in diesem konkreten Fall war das nicht unbedingt nötig, weil sämtliche Bauschbeteile sowieso von uns selbst entwickelt wurden und dann wäre eigentlich nicht angewiesen worden da auf ein spezifisches Protokoll zu setzen.

00:18:09: Und damit habt ihr auch eine weitere Einschränkung wieder gemacht und damit Risiken minimiert, nämlich das MCP lässt ja oft mehr Freiheitsgrad zu.

00:18:18: Hier habt ihr dann ganz konkret ne API vorgegeben also weiß ich nicht mit Zwecker oder OpenAI oder was immer dann sozusagen auch für die Dokumentation genutzt worden ist und damit ist er relativ klar was gemacht werden kann.

00:18:29: und nur genau das wird funktionieren.

00:18:32: Maßnahme an die Leine zu nehmen, um Verirrungen zu vermeiden.

00:18:38: Hintergrund dieser Feststellung war jetzt auch schon meine nächste Frage.

00:18:41: Die logischerweise im Audit-Emer dann angesprochen wird, ihr setzt ja irgendwie jetzt Computer ein.

00:18:47: Noch ganz schlimm, ganz böse mit KI haben sie es validiert.

00:18:51: Also das ist ja der Brummbraum als Auditor jetzt nicht den fortgeschrittenen KI Kurs belegt haben.

00:18:56: um diese Frage zu formulieren wie antwortet ihr David, zieht er da einen Kopf aus der Schlinge?

00:19:02: Ja wie ich's bereits erwähnt habe machen wir eine hundertprozent Prüfung des Outputs.

00:19:07: also die ganzen Testcases werden nochmals gereviewt durch einen Menschen komplett und müssen auch durch einem Menschen freigegeben werden.

00:19:15: Also somit haben wir eine hundertprozentige Validierung des Outputs, was wir aber schon zum eigenen Vorteil machen ist eine ja.

00:19:27: wie kann man es sagen?

00:19:28: Man kann nicht Unitest sagen weil das ist mit LLMs nicht das gleiche, weil diese nicht deterministisch sind.

00:19:35: Aber wir haben bei uns auch eine Infrastruktur aufgebaut, bei diesen wir sogenannte Evals durchführen können.

00:19:41: Also ein Test Set an verschiedenen Fragen die dann automatisch durch diese Toolchain oder Pipeline durchgejagt werden und der Output aus dieser Pipeline automatisch bewertet wird wie gut das dies ist.

00:19:59: Und das hilft vor allem auch beim entwickeln extrem, weil sobald man irgendwo eine Schraube verstellt oder der Prompt ein wenig anpasst was auch immer geändert wird.

00:20:12: Man hat dann die Sicherheit dass nicht nur der aktuelle Fall den man verbessern versucht besser wird sondern sämtliche andere Hunderpfälle die man schon optimiert hat auch noch gleich gut funktioniert.

00:20:24: also das ist eine sehr mächtige Methode um das systematisch vorzugehen und nicht einfach auf gut Glück die prompt zu ändern und hoffen, dass man nicht da nichts verschossen hat.

00:20:39: Also von dem her machen wir diese Validierung auch uns zuliebe.

00:20:44: es macht endlich massiv effizienter rauch und ja strukturierter jetzt unabhängig davon was der Auditor wissen will oder

00:20:53: nicht?

00:20:55: Es ist sowieso best practices und das wollen Ja,

00:21:01: also kann ich noch bestätigen.

00:21:03: Bei meinen Experimenten wo es ja viele auch um TD Review geht, bestimme ich beispielsweise die Varianten zwischen verschiedenen Runs.

00:21:10: Man muss immer schauen was ist eigentlich die Anforderung an das Tool?

00:21:14: Sonst können wir nicht validieren weil wir prüfen ja genau dagegen und bei euch sind natürlich dann die Korrektheit, Vollständigkeit von Testwellen eins der wichtigen Ergebnisse.

00:21:24: In meinem Fall zählt eben auch die Reproduzierbarkeit dazu, baue ich natürlich ein Stück weit auch.

00:21:29: Und das sind so Varianzmetriken mir sehr dienlich weil ich merke dann eben auch beim Weiterentwickeln genau wie du das geschildert hast.

00:21:36: Sobald mir so eine Metrik davonläuft hat es in der Regel nicht damit was zu tun dass es LLM anfängt zu spinnen oder gar schlechter geworden ist sondern sich irgendwo ein Problem eingebaut habe und sei es ein Promt der nicht mit einem Jason Schaber übereinstimmt oder sonst irgendwas.

00:21:52: Das heißt also diese Canary in the coal mine, wenn wir es nennen können.

00:21:56: Also diese Frühindikatoren dass da irgendwas falsch abbiegt oder man was verschlimm bessert kann ich denn dann bestätigen.

00:22:03: die sind sehr sehr dientig.

00:22:05: Ja damit sehen wir schon bei der Frage wie geht das jetzt eigentlich weiter?

00:22:09: Du hast ja bereits geschildert ihr habt da diesen zentralen Agent der letztlich als Wissensbasis bei euch fungiert.

00:22:15: Ihr habt diesen Testfallgenerierer der auch auf diesen anderen wieder zugreift Glaube zwischen Zahlen gehört zu haben, da ist eine größere KI-Strategie die sich in der ALDM verbirgt weil es jetzt wird mir auch nicht die entsprechenden Investitionen in die Infrastruktur tätigen.

00:22:32: Gibt's da schon auf eurer Pipeline weitere Überlegungen die ihr demnächst realisieren wollt.

00:22:37: im KI Kontext?

00:22:39: Ja der erste logische Schritt oder was wir jetzt auch beobachtet haben, während Testcase Generierung ist.

00:22:48: Es steht und fällt auch mit der Qualität der Requirement selbst.

00:22:52: also logischerweise der beste Agent kann keine gute Testcases erzeugen wenn das Requirement einfach nicht präzise ist oder nicht eindeutig oder sogar nicht testbar.

00:23:05: von dem her ist unser nächstes Projekt, das wir dort ansetzen wollen und zwar diese Requirements die wir haben automatisch zu prüfen.

00:23:15: Hinsichtlich Widersprüchlichkeit, hinsichtlich Trisabilität, hingsichtlich Testbarkeit und damit eigentlich von Anfang an bereits die Basis verbessern, damit uns dann die entsprechenden weiteren Schritte einfacher sind.

00:23:34: Also man kann sich dann auch überlegen, oder was wir jetzt schon tun ist auch Code generieren basierend auf Anforderungen und schlussendlich läuft alles zurück auf die Anforderung.

00:23:46: Je besser diese ist – das ist ja nicht neu erst seit Koi, das gilt eigentlich schon seit je und he.

00:23:52: aber jetzt merkt man als Schmerz besonders stark wenn man da ein wenig schlamppig war.

00:24:01: Das reicht sich jetzt nun und das wird dann natürlich sehr viele weitere Arbeitsschritte besser machen, wenn wir da die Grundqualität Requirements verbessern.

00:24:14: Da freue ich mich schon drauf, wenn du berichten kannst.

00:24:16: also da lade ich dich jetzt schon mal ein extra zu der nächsten Episode mit ein weil dieses Thema interessiert mich auch Ich merke nämlich auch bei meinen TD Prüfungen keine konzeptionelle Klarheit offensichtlich herrscht.

00:24:31: Ich sage jetzt mal in der Welt oder in diesen Trainingsdaten, wenn es um die Frage geht wie kann ich diese ganzen Anforderungstypen auch sauber klustern in eine Taxonomie überführen?

00:24:43: Also die Training zwischen beispielsweise Customer Requirements und User Requirement die Abgrenzung von Technical Requirements oder Product Requirement schon zu Product Specification, Zusammenspiel zwischen Needs und Stakeholder Anforderungen.

00:24:57: Also all das ist ein Kraut und Rüben und das findet man natürlich entsprechend dann auch in den Modellen und ich muss auf die wirklich mit aller Gewalt einschlagen um denen das irgendwie doch beizubiegen was eigentlich diese Logik wäre.

00:25:11: weil wenn man diese Taxonomie nicht hat dann kann er nachher auch nicht dagegen prüfen.

00:25:15: Und von der ähnlichen Frage steht er ja auch, weil es geht auch wieder um Anforderungen.

00:25:19: Um Anführungstypen, Anforderungs-Taxonomien.

00:25:21: Ich glaube wir kämpfen da gerade an der gleichen Front und ich glaube, da geht das den meisten höheren Hörern wahrscheinlich ähnlich und die freuen sich dann hoffentlich schon auf unsere nächste Episode bzw.

00:25:32: ich hoffe dass es diese nächste Episode gibt aber vorher noch ihr seid ja auch ein Dienstleister, sollte man ganz kurz erwähnen Wie kann man von euren Erfahrungen profitieren?

00:25:42: Also dass ihr profitiert, ich glaube das wurde jedem heute klar.

00:25:45: Ihr seid Effizender, ihr habt eine bessere Qualität die ja damit erreicht.

00:25:50: also es wird nicht schlechtes und das wird besser kann ich auch von meinen Erfahrungen immer schildern.

00:25:55: Was hat die Außenwelt davon?

00:25:57: Die Welt minus IMT.

00:26:00: Ja wie gesagt wir sind grundsätzlich für Zusammenarbeit offen.

00:26:05: Wir sind auch offen unserem Know-how zu teilen, wie du gesagt hast sind wir ebenfalls Dienstleister.

00:26:11: Und somit können wir eigentlich ja denjenigen helfen die mit den gleichen Problemen kämpfen und ihre Prozesse und insbesondere im Bereich der Entwicklung von Medizingeräten automatisieren möchten

00:26:26: Vor allem, glaube ich, darf man sagen im Bereich aktiver Medizinprodukte.

00:26:29: Darf ich diese Fokus noch dazu bringen?

00:26:32: Das habe ich euch auch kennengelernt.

00:26:34: also wenn es drum geht eben auch Hardware Software mehr aktive Medizin Produkte PEMS ganzes Sechzig-Sächs und Eins Produktkatalog.

00:26:43: auch IVD weiß ich von euch.

00:26:45: Also die sechstehnzehnte Welt ist derzeit absolut daheim.

00:26:49: Wenn's ein Hersteller gibt der sagt das hört sich für mich richtig an das scheint der richtige fit zu sein.

00:26:54: Ich vermute am besten einfach auf eurer Homepage gehen, imt.ch

00:27:00: oder auch im Bereich von Lokaler AI haben wir einiges dazugelehnt in den letzten Jahren.

00:27:05: also ich höre immer oft dass viele IT verantwortlichen sich da sträuben gewisse Abhängigkeiten einzugehören mit USA und China sei es noch finanziell oder bezüglich verfügbarkeit.

00:27:23: Also wer seine Stromrechnung in die Höhe bringen will, gleich kann Matthias werden.

00:27:29: Matthias ich danke dir von der Herzen.

00:27:30: das war einfach mega tolles Interview.

00:27:32: Danke dass du die Insights alle mit uns geteilt hast weil davon können wir lernen und frage mich schon auf den nächsten Episode mit dir.

00:27:39: Sehr gerne!

00:27:40: War auch sehr spannend für mich und gerne das nächste Mal mit dem Video.

Shownotes

Transkript anzeigen

Neuer Kommentar