Pretraživanje teksta

Naziv: Pretraživanje teksta
Organizacijska jedinica: Digitalna lingvistika
ECTS: 3
Šifra: 255306
Semestri: ljetni

Nastavnici

dr. sc. Tomislava Lauc, red. prof. (nositelj)

Satnica

Predavanja

Seminar

Cilj

Cilj kolegija je omogućiti studentima da razumiju i primjenjuju metode obrade jezika, procjene sličnosti tekstova, pretraživanja informacija i klasifikacije dokumenata, koristeći kako klasične pristupe, tako i duboko učenje, u humanističkom kontekstu.
Studenti će razviti sposobnost kritičke interpretacije rezultata analize tekstova iz područja društvenih i humanističkih znanosti, te razumjeti prednosti i ograničenja različitih metoda.

Sadržaj

Uvod u obradu jezika i teksta: Što znači “obrada jezika” i zašto je važna u pretraživanju i analiziranju tekstova. Primjeri iz književnosti, novinskih članaka, povijesnih dokumenata.
Morfološka normalizacija: Korijen i lemma. Zašto je važno prepoznati korijen riječi. Primjeri iz poezije i proze; kako to utječe na analizu i pretraživanje.
Priprema tekstova za analizu: Tokenizacija, uklanjanje nepotrebnih riječi, jednostavno čišćenje teksta. Fokus na interpretaciju i kvalitetu podataka.
Klasične metode sličnosti teksta – konceptualno. Objašnjenje TF-IDF mjere i sličnosti između tekstova kroz primjer književnog korpusa ili novinskih članaka.
Semantička sličnost i koncept embeddingsa. Kako se riječi i rečenice mogu “prevesti” u značenje; konceptualni primjer sličnosti među pjesmama, člancima ili povijesnim dokumentima.
Tumačenje rezultata i kritička refleksija. Što znači kad su dva teksta “slična”? Diskusija o interpretaciji u humanističkom kontekstu.
Što je pretraživanje informacija i kako ga razumjeti. Povijest i osnovne paradigme; primjeri iz knjižnica, digitalnih arhiva, medijskih baza.
Model vektorskog prostora – konceptualno. Predstavljanje teksta kao “skupa značajki” ili “točaka u prostoru značenja”.
Vjerojatnosni model pretraživanja – ideja i primjer. Kako se procjenjuje relevantnost teksta upitu; praktični primjeri.
Duboko učenje i suvremeni alati: pretraživanje sličnih tekstova, analize semantičkog značenja.
Klasifikacija dokumenata – osnovna ideja. Razvrstavanje tekstova prema temama ili stilovima; primjeri iz književnosti, medija ili povijesnih dokumenata.
Duboko učenje u klasifikaciji – konceptualno. Kako se računalni modeli mogu učiti razlikovati stilove i žanrove; primjer: proza vs. poezija, vijesti vs. komentari.
Primjena sličnosti i klasifikacije u istraživanju. Kombiniranje tehnika za analizu kolekcija tekstova, npr. istraživanje književnih korpusa ili digitalnih arhiva.
Evaluacija i interpretacija rezultata. Kritičko razmatranje: što nam ovi rezultati govore o tekstovima? Diskusija o granicama i mogućnostima metoda za humanističke studije.
Završni izvještaj

Ishodi učenja

Student će moći opisati i primijeniti postupke obrade jezika, uključujući morfološku normalizaciju, korjenovanje i lematizaciju, u svrhu pripreme tekstova za analizu i pretraživanje.
Student će moći primijeniti metode procjene sličnosti tekstova, koristeći klasične pristupe i pristupe temeljene na dubokom učenju, te interpretirati rezultate u praktičnom kontekstu
Student će moći opisati model vektorskog prostora i vjerojatnosni model pretraživanja, te objasniti kako duboko učenje unapređuje pretraživanje i semantičko razumijevanje upita i dokumenata.
Student će moći opisati i primijeniti metode klasifikacije dokumenata, koristeći klasične pristupe i pristupe temeljene na dubokom učenju, te procijeniti prednosti i ograničenja svakog pristupa.

Metode podučavanja

predavanja, vježbe, mješovito e-učenje, samostalni zadaci

Metode ocjenjivanja

pohađanje nastave, kolokvij, istraživanje, referat, praktični rad, usmeni ispit

Obavezna literatura

Ignatow, G., & Mihalcea, R. (2017). Text mining: A Guidebook for the Social Sciences Thousand Oaks, CA: SAGE Publications, Inc doi: 10.4135/9781483399782 (selected chapters)
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008
Garg, M., Kumar, S., & Khader Jilani Saudagar, A. (Eds.). (2023). Natural Language Processing and Information Retrieval: Principles and Applications (1st ed.). CRC Press. https://doi.org/10.1201/9781003244332

Dopunska literatura

G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press

Izborni kolegij na studijima

Stari studiji

Švedski jezik i kultura, sveučilišni diplomski dvopredmetni studij
- smjer Lingvistički, 2. semestar

Novi i reformirani studiji

Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 2., 4. semestar

Fakultetska ponuda

Diplomski studij: Ljetni semestar

ECTS Informacijski paket za akademsku godinu 2026. / 2027.

Pretraživanje teksta

ECTS Informacijski paket za akademsku godinu 2026. / 2027.

Pretraživanje teksta