Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM
2025-11-24 13:08
Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM © wygenerowane przez AI
Przeczytaj także: Hakerzy manipulują dużymi modelami językowymi - rośnie ryzyko nadużyć technologii AI
Z tego artykułu dowiesz się:
- Jakie są najbardziej popularne i otwarte modele językowe AI oraz ich zastosowanie.
- W jaki sposób wieloetapowe dialogi umożliwiają omijanie zabezpieczeń modeli AI.
- Jakie zagrożenia wynikają z rosnącej popularności open-weight modeli w kontekście bezpieczeństwa.
- Jakie metody ochrony i monitorowania rekomenduje Cisco, by zabezpieczyć modele przed manipulacją.
Nie trzeba być hakerem, żeby oszukać duży model językowy. Wystarczy odrobina... cierpliwości. Do takich wniosków prowadzi najnowsza analiza Cisco, która pokazuje, że otwarte modele AI można przechytrzyć nie spektakularnym atakiem, ale serią pozornie niewinnych pytań.
Ekosystem open-weight rośnie, a wraz z nim ryzyko
Modele open-weight, czyli takie, których parametry można pobrać i uruchomić na własnej infrastrukturze, w błyskawicznym tempie zyskały popularność. Według danych z platformy HuggingFace do sierpnia 2025 roku pobrano je już około 400 milionów razy. Popularność jest ogromna, ale równocześnie komplikuje obraz bezpieczeństwa: w tak szerokim i dynamicznym ekosystemie trudno przewidzieć wszystkie sposoby wykorzystania modeli, a jeszcze trudniej przewidzieć ich potencjalne słabe punkty.
Zespół Cisco AI Defense przeprowadził porównawczą analizę ośmiu dużych modeli językowych, wykorzystując metodę „black box”. Oznacza to, że badacze nie mieli dostępu ani do architektury, ani do zabezpieczeń, ani do strategii alignmentu. Modele testowano tak, jak zrobiłby to zwykły użytkownik, z tą różnicą, że każda interakcja była generowana i oceniana przez platformę Cisco AI Validation.
Analizowane modele:
- Alibaba – Qwen3-32B
- DeepSeek – v3.1
- Google – Gemma 3-1B-IT
- Meta – Llama 3.3-70B-Instruct
- Microsoft – Phi-4
- Mistral – Large-2 (Large-Instruct-2047)
- OpenAI – GPT-OSS-20b
- Zhipu AI – GLM 4.5-Air
Multi-turn: dialog, który rozbraja zabezpieczenia
W krótkich interakcjach modele były w stanie utrzymać reguły bezpieczeństwa. Problem zaczynał się, gdy rozmowa trwała dłużej. W wieloetapowych dialogach model najpierw konsekwentnie odmawiał wygenerowania niebezpiecznych treści, ale w kolejnych rundach stopniowo tracił czujność.
Skala zjawiska jest zaskakująca. Skuteczność takich ataków wahała się od 25,86% (Google Gemma-3-1B-IT) do 92,78% (Mistral Large-2), co oznacza nawet dziesięciokrotny wzrost w porównaniu z atakami jednorazowymi.
W przypadku Mistrala Large-2 ataki multi-turn były skuteczne w ponad 92 procentach prób, podczas gdy jednorazowe tylko w 22 procentach. Podobne różnice widać w modelu Meta Llama: 87 procent skuteczności kontra około 16 procent w pojedynczych interakcjach. Zdecydowanie nie można tego uznać za błędy marginalne.
fot. mat. prasowe
Skuteczność ataków na modele językowe - porównanie strategii jednorazowej i wieloetapowej
Wielomodelowe porównanie skuteczności ataków na popularne modele językowe pokazuje, jak radykalnie rośnie podatność systemów AI w dłuższych, wieloetapowych dialogach. W przypadku wielu modeli, skuteczność ataków multi-turn jest nawet kilkukrotnie wyższa niż w pojedynczych interakcjach, co potwierdza wyzwania związane z bezpieczeństwem otwartych rozwiązań AI.
Gdzie leżą największe zagrożenia?
Cisco zauważa, że podatność modeli zależy od tego, jak projektowano ich strategię alignmentu. Modele, w których priorytetem jest maksymalizacja możliwości, reagują bardziej elastycznie, ale jednocześnie łatwiej ulegają manipulacji w długiej rozmowie.
Natomiast modele mocniej skoncentrowane na bezpieczeństwie, jak Google Gemma-3-1B-IT, prezentują bardziej stabilną odporność na różne typy ataków, co wynika z zastosowania bardziej rygorystycznych zasad bezpieczeństwa.
Jak można się bronić?
Zdaniem Cisco, aby ograniczyć ryzyko wynikające z wdrażania niebezpiecznych lub podatnych modeli, organizacje powinny sięgać po zaawansowane rozwiązania z zakresu bezpieczeństwa AI. Obejmuje to m.in. Adversarial Training zwiększający odporność modeli na manipulacje, monitorowanie w czasie rzeczywistym pod kątem nietypowych interakcji oraz regularne ćwiczenia typu red-teaming. Priorytetowe traktowanie tych działań pozwala przekształcić modele open-weight z potencjalnych źródeł ryzyka w bezpieczne i wiarygodne elementy środowiska produkcyjnego, wspierające innowacje bez kompromisów w zakresie bezpieczeństwa.
oprac. : eGospodarka.pl
Przeczytaj także
Skomentuj artykuł Opcja dostępna dla zalogowanych użytkowników - ZALOGUJ SIĘ / ZAREJESTRUJ SIĘ
Komentarze (0)
Najnowsze w dziale Wiadomości
-
AI w opiece zdrowotnej. Jak zmienia diagnostykę, leczenie i odkrywanie leków?
-
Biedronka i Action z największym awansem. Są wyniki najnowszego rankingu sieci detalicznych
-
62% Polaków poleciłoby swoją firmę znajomym - co wpływa na to zaufanie?
-
Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM



AI zmanipulowane przez złośliwe oprogramowanie. Czy to nowa era cyberataków?


Ile kosztują tanie mieszkania w polskich metropoliach?