Benchmarking LLM modelů

Repozitář DSpace/Manakin

Jazyk: English čeština

Není dostupný náhled

Název:	Benchmarking LLM modelů
Autor:	Rubáš, Jan
Vedoucí:	Šenkeřík, Roman
Abstrakt:	Diplomová práce se zabývá návrhem, implementací a evaluací vlastního nástroje pro benchmarking výstupů velkých jazykových modelů a systémů typu Retrieval-Augmented Generation (RAG). Hlavním cílem bylo porovnat kvalitu odpovědí, latenci a rozsah výstupu různých modelů na základě souboru odborně formulovaných promptů. Nástroj je navržen jako modulární, s možností manuálního i automatizovaného hodnocení, a je provozován plně lokálně bez odesílání dat na vzdálené servery. Součástí práce je také porovnání modelů LLaMA, Mistral a DeepSeek v několikanásobné iteraci, vizualizace výsledků, statistická analýza a vyhodnocení pomocí Mini Areny. Model DeepSeek byl navíc testován v režimu RAG s využitím vektorového indexu dokumentů. Výsledky ukazují rozdíly v kvalitě výstupů a efektivitě mezi jednotlivými modely. Práce přináší praktický nástroj využitelný v akademickém i firemním prostředí.
URI:	http://hdl.handle.net/10563/58764
Datum:	2024-10-27
Dostupnost:	Bez omezení
Ústav:	Ústav informatiky a umělé inteligence
Studijní obor:	Softwarové inženýrství

Soubory	Velikost	Formát	Zobrazit
K tomuto záznamu nejsou připojeny žádné soubory.