eGospodarka.pl › Wiadomości › Gospodarka › Raporty i prognozy › Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM

Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM

2025-11-24 13:08

Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM

Czy AI jest odporne na ataki hakerów? Sprawdź wyniki najpopularniejszych LLM © wygenerowane przez AI

PRZEJDŹ DO GALERII ZDJĘĆ (2)

Najnowsza analiza firmy Cisco ujawnia realne podatności najpopularniejszych otwartych modeli językowych AI (open-weight). Badacze wykazali, że zamiast spektakularnych ataków, wystarczy seria pozornie niewinnych pytań w wieloetapowych dialogach, by skutecznie oszukać model. Popularność takich modeli dynamicznie rośnie - do sierpnia 2025 roku pobrano je aż około 400 mln razy. Skuteczność ataków wieloetapowych przekracza nawet 90% w niektórych modelach.

Przeczytaj także: Hakerzy manipulują dużymi modelami językowymi - rośnie ryzyko nadużyć technologii AI

Z tego artykułu dowiesz się:

Jakie są najbardziej popularne i otwarte modele językowe AI oraz ich zastosowanie.
W jaki sposób wieloetapowe dialogi umożliwiają omijanie zabezpieczeń modeli AI.
Jakie zagrożenia wynikają z rosnącej popularności open-weight modeli w kontekście bezpieczeństwa.
Jakie metody ochrony i monitorowania rekomenduje Cisco, by zabezpieczyć modele przed manipulacją.

Nie trzeba być hakerem, żeby oszukać duży model językowy. Wystarczy odrobina... cierpliwości. Do takich wniosków prowadzi najnowsza analiza Cisco, która pokazuje, że otwarte modele AI można przechytrzyć nie spektakularnym atakiem, ale serią pozornie niewinnych pytań.

Ekosystem open-weight rośnie, a wraz z nim ryzyko

Modele open-weight, czyli takie, których parametry można pobrać i uruchomić na własnej infrastrukturze, w błyskawicznym tempie zyskały popularność. Według danych z platformy HuggingFace do sierpnia 2025 roku pobrano je już około 400 milionów razy. Popularność jest ogromna, ale równocześnie komplikuje obraz bezpieczeństwa: w tak szerokim i dynamicznym ekosystemie trudno przewidzieć wszystkie sposoby wykorzystania modeli, a jeszcze trudniej przewidzieć ich potencjalne słabe punkty.

Zespół Cisco AI Defense przeprowadził porównawczą analizę ośmiu dużych modeli językowych, wykorzystując metodę „black box”. Oznacza to, że badacze nie mieli dostępu ani do architektury, ani do zabezpieczeń, ani do strategii alignmentu. Modele testowano tak, jak zrobiłby to zwykły użytkownik, z tą różnicą, że każda interakcja była generowana i oceniana przez platformę Cisco AI Validation.

Analizowane modele:

Alibaba – Qwen3-32B
DeepSeek – v3.1
Google – Gemma 3-1B-IT
Meta – Llama 3.3-70B-Instruct
Microsoft – Phi-4
Mistral – Large-2 (Large-Instruct-2047)
OpenAI – GPT-OSS-20b
Zhipu AI – GLM 4.5-Air

Multi-turn: dialog, który rozbraja zabezpieczenia

W krótkich interakcjach modele były w stanie utrzymać reguły bezpieczeństwa. Problem zaczynał się, gdy rozmowa trwała dłużej. W wieloetapowych dialogach model najpierw konsekwentnie odmawiał wygenerowania niebezpiecznych treści, ale w kolejnych rundach stopniowo tracił czujność.

Skala zjawiska jest zaskakująca. Skuteczność takich ataków wahała się od 25,86% (Google Gemma-3-1B-IT) do 92,78% (Mistral Large-2), co oznacza nawet dziesięciokrotny wzrost w porównaniu z atakami jednorazowymi.

W przypadku Mistrala Large-2 ataki multi-turn były skuteczne w ponad 92 procentach prób, podczas gdy jednorazowe tylko w 22 procentach. Podobne różnice widać w modelu Meta Llama: 87 procent skuteczności kontra około 16 procent w pojedynczych interakcjach. Zdecydowanie nie można tego uznać za błędy marginalne.

Skuteczność ataków na modele językowe - porównanie strategii jednorazowej i wieloetapowej

Kliknij, aby powiekszyć

fot. mat. prasowe

Skuteczność ataków na modele językowe - porównanie strategii jednorazowej i wieloetapowej

Wielomodelowe porównanie skuteczności ataków na popularne modele językowe pokazuje, jak radykalnie rośnie podatność systemów AI w dłuższych, wieloetapowych dialogach. W przypadku wielu modeli, skuteczność ataków multi-turn jest nawet kilkukrotnie wyższa niż w pojedynczych interakcjach, co potwierdza wyzwania związane z bezpieczeństwem otwartych rozwiązań AI.

Kliknij, aby przejść do galerii (2)

Gdzie leżą największe zagrożenia?

Cisco zauważa, że podatność modeli zależy od tego, jak projektowano ich strategię alignmentu. Modele, w których priorytetem jest maksymalizacja możliwości, reagują bardziej elastycznie, ale jednocześnie łatwiej ulegają manipulacji w długiej rozmowie.

Natomiast modele mocniej skoncentrowane na bezpieczeństwie, jak Google Gemma-3-1B-IT, prezentują bardziej stabilną odporność na różne typy ataków, co wynika z zastosowania bardziej rygorystycznych zasad bezpieczeństwa.

Jak można się bronić?

Zdaniem Cisco, aby ograniczyć ryzyko wynikające z wdrażania niebezpiecznych lub podatnych modeli, organizacje powinny sięgać po zaawansowane rozwiązania z zakresu bezpieczeństwa AI. Obejmuje to m.in. Adversarial Training zwiększający odporność modeli na manipulacje, monitorowanie w czasie rzeczywistym pod kątem nietypowych interakcji oraz regularne ćwiczenia typu red-teaming. Priorytetowe traktowanie tych działań pozwala przekształcić modele open-weight z potencjalnych źródeł ryzyka w bezpieczne i wiarygodne elementy środowiska produkcyjnego, wspierające innowacje bez kompromisów w zakresie bezpieczeństwa.

Przeczytaj także:

AI zmanipulowane przez złośliwe oprogramowanie. Czy to nowa era cyberataków?

AI zmanipulowane przez złośliwe oprogramowanie. Czy to nowa era cyberataków?

oprac. : eGospodarka.pl

Więcej na ten temat: AI, sztuczna inteligencja, LLM, cyberataki, cyberbezpieczeństwo, cyberprzestępcy, cyberzagrożenia, złośliwe oprogramowanie

Przeczytaj także

AI w rękach cyberprzestępców - jak mogą chronić się firmy?

AI w rękach cyberprzestępców - jak mogą chronić się firmy?

Phishing odwraca reguły gry: To ofiary inicjują kontakt, a cyberprzestępcy podszywają się pod normalne firmy

Phishing odwraca reguły gry: To ofiary inicjują kontakt, a cyberprzestępcy podszywają się pod normalne firmy

Sztuczna inteligencja napędza cyberataki - nowe zagrożenia dla firm

Sztuczna inteligencja napędza cyberataki - nowe zagrożenia dla firm

DeepSeek i Qwen: nowe modele AI już w rękach cyberprzestępców

DeepSeek i Qwen: nowe modele AI już w rękach cyberprzestępców

Uważaj na ChatGPT! Setki tysięcy oszustw żerujących na sztucznej inteligencji

Uważaj na ChatGPT! Setki tysięcy oszustw żerujących na sztucznej inteligencji

Cyberbezpieczeństwo: jakie wyzwania przed polskimi firmami?

Cyberbezpieczeństwo: jakie wyzwania przed polskimi firmami?

Sztuczna inteligencja i platformy MESH przyszłością cyberbezpieczeństwa

Sztuczna inteligencja i platformy MESH przyszłością cyberbezpieczeństwa

5 oszustw z wykorzystaniem sztucznej inteligencji

5 oszustw z wykorzystaniem sztucznej inteligencji

Cyberbezpieczeństwo 2024: czego (złego) mamy się spodziewać?

Cyberbezpieczeństwo 2024: czego (złego) mamy się spodziewać?

Poprzedni artykuł

Kto w pracy wybiera milczenie? Raport Well.hr na temat bezpieczeństwa psychologicznego Polaków w pracy.

Kto w pracy wybiera milczenie? Raport Well.hr na temat bezpieczeństwa psychologicznego Polaków w pracy.

Następny artykuł

62% Polaków poleciłoby swoją firmę znajomym - co wpływa na to zaufanie?

62% Polaków poleciłoby swoją firmę znajomym - co wpływa na to zaufanie?

Skomentuj artykuł Opcja dostępna dla zalogowanych użytkowników - ZALOGUJ SIĘ / ZAREJESTRUJ SIĘ

Komentarze (0)

Najnowsze w dziale Wiadomości

Polecamy

Ranking lokat i kont oszczędnościowych. Przegląd możliwości dostępnych w czerwcu 2025

Ranking lokat i kont oszczędnościowych. Przegląd możliwości dostępnych w czerwcu 2025

Ranking lokat i kont oszczędnościowych. Przegląd możliwości dostępnych we wrześniu 2025

Ranking lokat i kont oszczędnościowych. Przegląd możliwości dostępnych we wrześniu 2025

Jak reklamować ośrodek wypoczynkowy lub hotel?

Jak reklamować ośrodek wypoczynkowy lub hotel?

Artykuły promowane

Delegacje krajowe i zagraniczne: nowe stawki diety przy podróżach służbowych od 29.11.2022 i 01.01.2023

Delegacje krajowe i zagraniczne: nowe stawki diety przy podróżach służbowych od 29.11.2022 i 01.01.2023

Ile można dorobić do emerytury i renty? Nowe limity od 1 września 2025

Nowe limity podatkowe na 2025 rok

Nowe pytania

Eksperci egospodarka.pl

Najnowsze w serwisie

Na co w praktyce przełożą się zmiany w stażu pracy od 2026 roku?

Na co w praktyce przełożą się zmiany w stażu pracy od 2026 roku?

Czy polityka ATT Apple narusza prawo konkurencji na rynku reklamy? Sprawa pod lupą UOKiK

Czy polityka ATT Apple narusza prawo konkurencji na rynku reklamy? Sprawa pod lupą UOKiK

JPK CIT/PIT 2026 - koniec papierowych ksiąg i początek automatycznej kontroli podatkowej

JPK CIT/PIT 2026 - koniec papierowych ksiąg i początek automatycznej kontroli podatkowej

Cyfrowy paszport produktu: co zmieni DPP i kto musi przygotować się na niego najszybciej?

Cyfrowy paszport produktu: co zmieni DPP i kto musi przygotować się na niego najszybciej?

Od 2026 r. niższy limit odliczeń dla firmowych samochodów spalinowych

Od 2026 r. niższy limit odliczeń dla firmowych samochodów spalinowych

Jak chronić seniorów przed nieuczciwymi sprzedawcami? Proste zasady bezpieczeństwa

Jak chronić seniorów przed nieuczciwymi sprzedawcami? Proste zasady bezpieczeństwa

Nie benefity, lecz uznanie. Jak docenianie zatrzymuje ludzi w firmie

Nie benefity, lecz uznanie. Jak docenianie zatrzymuje ludzi w firmie

Kodeksy

Pokaż wszystkie

Pokaż wszystkie

Wzory dokumentów

Na skróty