Prawda czy fałsz? Halucynacje AI kontra technika RAG

Z generatywnej sztucznej inteligencji (generative AI) korzysta obecnie ok. 65 proc. firm na świecie.[1] Podstawową siłą tego rozwiązania jest tworzenie treści bazujących na udostępnianych jej danych, zgromadzonych w olbrzymich bazach. Gen AI ma jednak istotną wadę: może generować skrajnie nieprawidłowe informacje, zaczerpnięte z nieprawdziwych źródeł lub też niepoprawnie interpretować znalezione dane. Zjawisko to nazywa się „halucynowaniem”. Ryzyko jego wystąpienia można jednak zminimalizować dzięki technice RAG – Retrieval Augmented Generation (generowanie wzbogacone o źródła).

Zmniejszenie ryzyka występowania halucynacji modeli AI powinno stać się priorytetem dla firm korzystających z rozwiązań, które bazują na sztucznej inteligencji. Nieprawidłowości w danych dostarczanych przez AI mogą bowiem skutkować wieloma negatywnymi konsekwencjami, m.in. rozprzestrzenianiem dezinformacji czy podejmowaniem niekorzystnych dla firmy decyzji.

Na skróty:

Kiedy dochodzi do halucynacji?

Halucynacje generatywnej sztucznej inteligencji są na tyle powszechnym zjawiskiem, że dystrybutorzy bazujących na niej rozwiązań sami wzywają do dokładnej weryfikacji odpowiedzi otrzymywanych od AI. Użytkownicy tych narzędzi muszą więc zachowywać czujność. Generatywna sztuczna inteligencja nie wyręczy ich bowiem w tym zadaniu. Zamiast tego, będzie ona usiłowała odpowiedzieć na zadane jej zapytanie (prompt), nawet jeżeli dane źródłowe lub samo polecenie użytkownika są dla niej niezrozumiałe.

– Zjawisko halucynowania ma miejsce w sytuacji, gdy sztuczna inteligencja próbuje udzielić odpowiedzi na skierowane do niej zapytanie, ale przestaje bezpośrednio czerpać z danych, na podstawie których ją wyszkolono. Zamiast tego, AI dokonuje ich daleko posuniętej nadinterpretacji lub zaczyna samodzielnie tworzyć nowe wzorce. w efekcie odpowiedzi udzielane przez halucynującą sztuczną inteligencję mogą zawierać „jedynie” drobne nieścisłości, ale też całkowicie sfabrykowane fakty – wyjaśnia Jakub Andrzejewski, Business Development Manager na Polskę w firmie Progress, dostawcy rozwiązań do tworzenia aplikacji biznesowych, wdrażania ich i zarządzania nimi.

Przykładem powstałych w ten sposób treści są m.in. fikcyjne cytaty, nieistniejące statystyki lub niepoprawne tłumaczenia.

Powodów występowania halucynacji u modeli AI może być kilka:

Niewystarczające lub nieaktualne dane treningowe – Model sztucznej inteligencji podejmie próbę udzielenia odpowiedzi na przesłane mu zapytanie nawet w przypadku podania w nim mało jakościowych lub zbyt ogólnych informacji. Uzyskane w ten sposób wyniki najprawdopodobniej będą nieprawidłowe.
Zbyt specjalistyczne treści szkoleniowe – Sztuczna inteligencja wytrenowana na wąskim zbiorze danych nie będzie w stanie skutecznie dokonywać uogólnień, w efekcie czego powstaną halucynacje.
Zadawanie niezrozumiałych dla AI zapytań – Przedstawiając prompt sztucznej inteligencji, użytkownik musi zadbać o to, aby jego prośba była klarowna dla modelu, z którym pracuje. Jeżeli zapytanie zawiera np. slang lub idiomy, to AI, które nie miało z nimi styczności, może odpowiedzieć w sposób chaotyczny i pozbawiony logiki.

Czym jest RAG i jak może pomóc?

RAG to technika zwiększania jakości treści tworzonych przez modele generatywnej sztucznej inteligencji poprzez wykorzystanie w czasie rzeczywistym zasobów zewnętrznych. Bazuje na połączeniu mechanizmów generowania tekstu z funkcją wyszukiwania informacji. Pozwala to AI na czerpanie z aktualnych i sprawdzonych źródeł, minimalizując ryzyko halucynacji.

Technika RAG bazuje na pięciu komponentach. Pierwszy z nich polega na zaimportowaniu zasobów do wielomodelowej bazy danych. Treści te nie podlegają modyfikacjom i zachowują taką formę, w jakiej zostały udostępnione w oryginalnych źródłach (np. dokumentach tekstowych czy stronach internetowych). Baza obsługuje wiele typów danych, takich jak m.in. wykresy, czy tabele oraz pozwala na przechowywanie ich w jednym miejscu. Następnie zasoby te są porządkowane i standaryzowane tak, aby mogły być później wykorzystywane zarówno przez modele AI, jak i inne narzędzia programistyczne. Drugi komponent to przechwytywanie wiedzy. Zasoby znajdujące się w bazie są przypisywane do odpowiednich tagów, dzięki czemu są bardziej czytelne dla AI. Proces ten odbywa się w tzw. platformie semantycznej – systemie, który porządkuje dane poprzez zastosowanie taksonomii (nauki o klasyfikacji) oraz ontologii. Dzięki tagom możliwe jest stworzenie tzw. grafów wiedzy, czyli wizualnych map danych, które pokazują powiązania pomiędzy różnymi informacjami. Trzeci komponent polega na tagowaniu zapytań użytkownika i oznaczaniu promptów konkretnymi etykietami. Upraszcza to identyfikację w grafie wiedzy tych danych, które rzeczywiście odnoszą się do tematu zapytania. Czwarty etap koncentruje się na tworzeniu promptów. Zapytanie użytkownika jest wzbogacane o wyniki wyszukiwania hybrydowego, bazującego na grafach wiedzy, co znacznie zwiększa trafność i dokładność promptów. Ostatnim, piątym, komponentem RAG jest weryfikacja odpowiedzi AI. Treści generowane przez sztuczną inteligencję są sprawdzane z ustrukturyzowaną bazą danych, aby upewnić się, że są one poprawne. Dopiero wtedy odpowiedź jest przekazywana użytkownikowi.

Wiarygodne dane i większe bezpieczeństwo

Ponieważ dane nieustannie ewoluują, modele sztucznej inteligencji wymagają regularnego aktualizowania, aby dostarczać jakościowe wyniki. Dlatego warto rozważyć wdrożenie produktów, które uzupełniają modele generatywnej sztucznej inteligencji o nowe funkcje. Umożliwiają one korzystającym z nich firmom dostosowanie się do wszelkich aktualizacji, zarówno tych dotyczących stanu danych, jak i samych modeli AI. Ich wdrożenie nie wymaga znaczących przestojów w działalności lub rekonfiguracji systemów. Ponadto, rozwiązania RAG, ze względu na fakt, iż mogą wykorzystywać wrażliwe dane przedsiębiorstwa, dbają o to, aby treści te nie trafiły do internetu. Innymi słowy, ułatwiają one również zapewnienie zgodności z przyjętymi przez firmę regułami bezpieczeństwa. Ich najistotniejszą zaletą jest jednak zwiększenie wiarygodności informacji dostarczanych przez sztuczną inteligencję.

– Konsumenci korzystający z rozwiązań RAG oceniają dokładność otrzymywanych informacji na powyżej 90 procent. Zdarza się nawet, że jest to 100 procent. Tak duży poziom dokładności pozwala na budowanie zaufania względem AI – zaznacza Jakub Andrzejewski.

Istotne jest także, aby tworząca odpowiedź na przesłany prompt sztuczna inteligencja mogła korzystać z jak najlepszych źródeł. Dzięki metodzie RAG pochodzenie informacji przestaje być tajemnicą. Bazujące na niej modele AI zyskują potencjał, aby pomóc firmom skutecznie wprowadzać cyfrowe innowacje oraz zwiększać poziom konkurencyjności na coraz trudniejszym rynku.

[1] `McKinsey & Company, What is generative AI?

Autor/źródło

Redakcja

Gorące tematy

Gospodarka

Marketing

Polityka

Prawo