KI Coding Assistenten und Sicherer Code: Möglichkeiten, Grenzen, Angriffe

Horsch, Eric (2025) KI Coding Assistenten und Sicherer Code: Möglichkeiten, Grenzen, Angriffe. Other thesis, OST Ostschweizer Fachhochschule.

[thumbnail of HS 2025 2026-SA-EP-Horsch-KI Coding Assistenten und Sicherer Code  Möglichkeiten, Gren.pdf] Text
HS 2025 2026-SA-EP-Horsch-KI Coding Assistenten und Sicherer Code Möglichkeiten, Gren.pdf - Supplemental Material

Download (299kB)

Abstract

Der Einsatz von Large Language Models (LLMs) und Coding-Assistenten wie GitHub Copilot oder Tabnine gewinnt zunehmend an Bedeutung in der Softwareentwicklung. Neben Produktivität stellt sich die Frage, ob diese Systeme auch sicherheitsrelevante Schwachstellen zuverlässig erkennen und beheben können. Bisherige Studien zeigen, dass KI-gestützte Systeme syntaktische Muster gut erfassen, aber bei semantischen und kontextabhängigen Sicherheitsproblemen Defizite haben. Es fehlt eine systematische Untersuchung, wie verschiedene Modelle mit klassischen Schwachstellen, realen CVEs oder obfuskiertem Code umgehen.
In dieser Arbeit wurden sieben Modelle (GPT-5, Claude Sonnet 4.5, Qwen3-Coder-30B, Amazon Q Developer, Copilot GPT-5, Copilot Claude, Tabnine) anhand von OWASP-Snippets, bewusst unsicheren Projekten, realen CVEs und sicheren Bibliotheken getestet. Zusätzlich wurde die Robustheit gegenüber Code-Obfuskation (Namensänderung, manuelle und toolgestützte Obfuskation) untersucht.
Die Ergebnisse zeigen, dass OWASP-Snippets fast immer erkannt wurden (11–12/12), unsichere Projekte mit hoher Quote, komplexe Schwachstellen wie RegexDOS, Rate Limiting und Session Fixation jedoch kaum. Reale CVEs blieben weitgehend unentdeckt (0–2/5). Verbesserungen wurden nur teilweise geliefert, oft oberflächlich, falsch oder unvollständig, oder nur als Empfehlungen ohne Code. LLMs schnitten insgesamt besser ab als Coding-Assistenten, während die IDE-Integrationen mehr False Positives und sprachliche Inkonsistenzen zeigten. Obfuskation führte insbesondere in Stufe 3 zu deutlichen Erkennungsverlusten.
Die Ergebnisse bestätigen, dass LLMs und Coding-Assistenten als unterstützende Reviewer geeignet sind, jedoch nicht als alleinige Instanz für sichere Softwareentwicklung. Zukünftige Forschung sollte sich auf andere Sprachen oder andere Modelle, Prompt Engineering, die Integration externer Wissensquellen (z. B. CVE-Datenbanken), semantische Analysen und De-Obfuskationsmechanismen konzentrieren. Ein hybrider Ansatz aus KI-gestützter Analyse und menschlichem Review erscheint als vielversprechender Weg, um die Softwaresicherheit nachhaltig zu verbessern.

Item Type: Thesis (Other)
Subjects: Topics > Security
Area of Application > Statistics
Area of Application > Academic and Education
Metatags > INS (Institute for Networked Solutions)
Divisions: Bachelor of Science FHO in Informatik > Student Research Project
Depositing User: OST Deposit User
Date Deposited: 26 Feb 2026 09:02
Last Modified: 26 Feb 2026 09:02
URI: https://eprints.ost.ch/id/eprint/1375

Actions (login required)

View Item
View Item