Question 1

Jak se testování AI a LLM produktů liší od klasického softwarového testování?

Accepted Answer

Klasické testování ověřuje shodu se specifikací — výstup je buď správný, nebo ne. U LLM modelů žádná pevná specifikace neexistuje: odpovědi jsou nedeterministické, mění se při každém volání a závisí na kontextu. Testujeme proto jiné věci: kvalitu a relevanci výstupů, konzistenci při opakování, bezpečnost vůči prompt injection a regresní chování po každém updatu modelu nebo promptu. Nestačí unit testy — potřebné jsou evaluační sady a monitoring kvality v čase.

Question 2

Jak odhalíte halucinace v mém AI produktu nebo chatbotu?

Accepted Answer

Halucinace testujeme pomocí validačních scénářů: chatbotu nebo AI asistentovi klademe otázky, na které existuje jasná, ověřitelná odpověď — fakta o produktu, ceny, podmínky, dokumentace. Výstupy porovnáváme s autoritativním zdrojem. Testujeme i edge cases: otázky mimo rozsah znalostí systému, konfliktní informace nebo záměrně nesmyslné vstupy. Výstupem je soupis nalezených nepřesností seřazený podle závažnosti a dopadu na uživatele.

Question 3

Co je prompt injection a proč je to bezpečnostní riziko pro AI produkt?

Accepted Answer

Prompt injection je útok, při kterém uživatel pomocí promysleného vstupu přinutí AI jednat způsobem, který jste nezamýšleli — například ignorovat bezpečnostní instrukce, prozradit systémový prompt nebo provést akce, ke kterým nemá oprávnění. Pro aplikace zpracovávající citlivá data, přistupující k externím systémům nebo integrované do business procesů to není akademická hrozba. Testujeme třídy útoků z OWASP Top 10 for LLM a scénáře specifické pro váš produkt.

Question 4

Jak zjistím, že update modelu nepokazil to, co předtím fungovalo?

Accepted Answer

Regresní testování AI produktu stojí na evaluačních sadách: soubor vstupů, ke kterým máte schválenou expected odpověď nebo hodnotící kritéria. Před každým updatem modelu, promptu nebo RAG databáze spustíme tuto sadu a porovnáme výsledky. Změna, která zlepší jedno a zhorší druhé, se zachytí dřív než v produkci. Nastavíme vám celý proces od nuly nebo navážeme na to, co už máte.

Question 5

Co konkrétně dostanu jako výstup testování AI nebo LLM produktu?

Accepted Answer

Výstupem je strukturovaný report s nalezenými problémy seřazenými podle závažnosti, konkrétní reprodukční scénáře a doporučení k nápravě. Pro AI produkty typicky zahrnuje: seznam nalezených halucinací s přesnými vstupy a výstupy, výsledky bezpečnostního testování (prompt injection scénáře) a baseline metriky kvality výstupů pro srovnání s budoucími verzemi. Dodávám ve formátu, který do vašeho procesu skutečně zapadne — Notion, PDF, Markdown nebo přímo jako issues ve vašem trackeru.

AI & LLM Product Testing

What's included

Who this service is for

How we test it