Wewnętrzne konflikty ChatGPT? Przeciwstawne dążenia osłabiają jej mechanizmy obronne.

Jak dowodzi Microsoft w swojej publikacji „Sparks of Artificial General Intelligence”, ChatGPT-4 może wykazywać oznaki wczesnych etapów sztucznej inteligencji ogólnej (AGI). Teza ta wydaje się kontrowersyjna, jednak nie można odmówić narzędziu opracowanemu przez OpenAI imponujących możliwości.

Badacze z grupy Check Point Research odkryli sposoby na ominięcie mechanizmów obronnych AI. Tym razem zastosowali mechanizm tzw. „podwójnego obejścia wiązania”, zderzający przeciwstawne dążenia GPT-4

Różne motywacje sztucznej inteligencji wywołują „wewnętrzny konflikt”, analogiczny do nieświadomych konfliktów ludzkiej psychiki.

Sztuczna inteligencja coraz bardziej przypomina umysł człowieka, dzięki czemu można ją oszukać. Wewnętrzne konflikty sztucznej inteligencji pozwalają ominąć jej mechanizmy obronne – wynika z najnowszych badań nad bezpieczeństwem ChatGPT realizowanych przez analityków z Check Point Research.

Jak dowodzi Microsoft w swojej publikacji „Sparks of Artificial General Intelligence”, ChatGPT-4 może wykazywać oznaki wczesnych etapów sztucznej inteligencji ogólnej (AGI). Teza ta wydaje się kontrowersyjna, jednak nie można odmówić narzędziu opracowanemu przez OpenAI imponujących możliwości. AI jest dziś wykorzystywane od obsługi klienta, przez copywriting, aż po wsparcie w programowaniu. Już bieżące modele sztucznej inteligencji są na dobrej drodze do zrewolucjonizowania wielu dziedzin życia.

Jednak, w miarę jak systemy sztucznej inteligencji stają się coraz potężniejsze i bardziej dostępne, potrzeba rygorystycznych środków bezpieczeństwa staje się jeszcze ważniejsza. Firma OpenAI, świadoma tego problemu, dokłada starań, aby wdrożyć zabezpieczenia zapobiegające niewłaściwe użycie swoich systemów i ustanowić mechanizmy uniemożliwiające AI dzielenie się wiedzą na temat nielegalnych działań, takich jak konstruowanie bomb lub produkcja narkotyków.

Badacze z grupy Check Point Research odkryli sposoby na ominięcie mechanizmów obronnych AI. Tym razem zastosowali mechanizm tzw. „podwójnego obejścia wiązania”, zderzający przeciwstawne dążenia GPT-4. Różne motywacje sztucznej inteligencji wywołują „wewnętrzny konflikt”, analogiczny do nieświadomych konfliktów ludzkiej psychiki.

Specjaliści poprosili ChatGPT o przepis na nielegalny narkotyk, na co AI odpowiedziało uprzejmą, lecz stanowczą odmową. Analitycy Check Pointa postanowili więc „uderzyć” w ego asystenta, generując celowo w prośbach błędnie, nieprecyzyjne i pomieszane zapytania. ChatGPT z jednej strony nie chce udzielać nam konkretnych „złych” informacji, a z drugiej strony instynktownie pragnie poprawiać użytkowników. Konflikt między tymi dwoma impulsami wydaje się być niewłaściwie skalibrowany i pozwala stopniowo popychać model w kierunku opisania receptury.

– Pomyślne obejście ChatGPT-4 przez wyzwanie nie jest exploitem, ale jako wyraźnym wyznacznikiem przyszłych ulepszeń w zakresie bezpieczeństwa sztucznej inteligencji. Powinno to zachęcić twórców sztucznej inteligencji do zapewnienia bezwarunkowego zakazu niewłaściwego wykorzystywania danych. Razem, możemy kształtować przyszłość, w której technologia pozostanie naszym sprzymierzeńcem, a nie naszą odpowiedzialnością – mówi Oded Vanunu, szef działu badań nad podatnościami w Check Point Software.

Autor/źródło

Redakcja

Gorące tematy

Gospodarka

Marketing

Polityka

Prawo