| dc.contributor.advisor |
Prokopová, Zdenka
|
|
| dc.contributor.author |
Mikulecký, Pavel
|
|
| dc.date.accessioned |
2025-12-10T23:09:50Z |
|
| dc.date.available |
2025-12-10T23:09:50Z |
|
| dc.date.issued |
2024-10-27 |
|
| dc.identifier |
Elektronický archiv Knihovny UTB |
|
| dc.identifier.uri |
http://hdl.handle.net/10563/57731
|
|
| dc.description.abstract |
Tato diplomová práce se zaměřuje na problematiku automatické extrakce metadat z PDF souborů akademických publikací pomocí moderních modelů umělé inteligence. V teoretické části jsou představeny základy zpracování přirozeného jazyka, technologie hlubokého učení, současné přístupy k extrakci metadat a možnosti velkých jazykových modelů (LLM) a vizuálně-jazykových modelů (VLM). Praktická část práce představuje návrh a implementaci modulární extrakční pipeline, která zahrnuje pět různých přístupů: textovou pipeline (TEXT), embeddingovou pipeline s RAG (EMBEDDED), vizuálně-jazykovou pipeline (VLM), experimentální multimodální pipeline (MULTIMODAL) a hybridní pipeline (HYBRID) kombinující nejlepší výsledky textové a vizuální pipeline. |
|
| dc.format |
124 s. (121 047 znaků) |
|
| dc.language.iso |
cs |
|
| dc.publisher |
Univerzita Tomáše Bati ve Zlíně |
|
| dc.rights |
Bez omezení |
|
| dc.subject |
extrakce metadat
|
cs |
| dc.subject |
velké jazykové modely
|
cs |
| dc.subject |
vizuálně-jazykové modely
|
cs |
| dc.subject |
zpracování přirozeného jazyka
|
cs |
| dc.subject |
akademické publikace
|
cs |
| dc.subject |
institucionální repozitář
|
cs |
| dc.subject |
PDF analýza
|
cs |
| dc.subject |
sémantické porovnání
|
cs |
| dc.subject |
multimodální zpracování
|
cs |
| dc.subject |
hybridní pipeline
|
cs |
| dc.subject |
metadata extraction
|
en |
| dc.subject |
large language models
|
en |
| dc.subject |
vision-language models
|
en |
| dc.subject |
natural language processing
|
en |
| dc.subject |
academic publications
|
en |
| dc.subject |
institutional repository
|
en |
| dc.subject |
PDF analysis
|
en |
| dc.subject |
semantic comparison
|
en |
| dc.subject |
multimodal processing
|
en |
| dc.subject |
hybrid pipeline
|
en |
| dc.title |
Využití AI (LLM, VLM) pro podporu evidence vědecké publikační činnosti |
|
| dc.title.alternative |
Use of AI (LLM, VLM) to Support the Documentation of Scientific Publishing Activities |
|
| dc.type |
diplomová práce |
cs |
| dc.contributor.referee |
Fabián, Ondřej |
|
| dc.date.accepted |
2025-06-19 |
|
| dc.description.abstract-translated |
This master's thesis focuses on the problem of automatic metadata extraction from PDF files of academic publications using modern artificial intelligence models. The theoretical part introduces the basics of natural language processing, deep learning technologies, current approaches to metadata extraction, and the capabilities of large language models (LLM) and vision-language models (VLM). The practical part presents the design and implementation of a modular extraction pipeline that includes five different approaches: text pipeline (TEXT), embedding pipeline with RAG (EMBEDDED), vision-language pipeline (VLM), experimental multimodal pipeline (MULTIMODAL), and hybrid pipeline (HYBRID) combining the best results from text and visual pipelines. |
|
| dc.description.department |
Ústav informatiky a umělé inteligence |
|
| dc.thesis.degree-discipline |
Softwarové inženýrství |
cs |
| dc.thesis.degree-discipline |
Software Engineering |
en |
| dc.thesis.degree-grantor |
Univerzita Tomáše Bati ve Zlíně. Fakulta aplikované informatiky |
cs |
| dc.thesis.degree-grantor |
Tomas Bata University in Zlín. Faculty of Applied Informatics |
en |
| dc.thesis.degree-name |
Ing. |
|
| dc.thesis.degree-program |
Informační technologie |
cs |
| dc.thesis.degree-program |
Information Technologies |
en |
| dc.identifier.stag |
70129
|
|
| dc.date.submitted |
2025-05-29 |
|