Naziv
Pretraživanje teksta
Organizacijska jedinica
Digitalna lingvistika
ECTS
3
Šifra
255306
Semestri
ljetni
Satnica
Predavanja
15
Seminar
15

Cilj
Cilj kolegija je omogućiti studentima da razumiju i primjenjuju metode obrade jezika, procjene sličnosti tekstova, pretraživanja informacija i klasifikacije dokumenata, koristeći kako klasične pristupe, tako i duboko učenje, u humanističkom kontekstu.
Studenti će razviti sposobnost kritičke interpretacije rezultata analize tekstova iz područja društvenih i humanističkih znanosti, te razumjeti prednosti i ograničenja različitih metoda.
Sadržaj
  1. Uvod u obradu jezika i teksta: Što znači “obrada jezika” i zašto je važna u pretraživanju i analiziranju tekstova. Primjeri iz književnosti, novinskih članaka, povijesnih dokumenata.
  2. Morfološka normalizacija: Korijen i lemma. Zašto je važno prepoznati korijen riječi. Primjeri iz poezije i proze; kako to utječe na analizu i pretraživanje.
  3. Priprema tekstova za analizu: Tokenizacija, uklanjanje nepotrebnih riječi, jednostavno čišćenje teksta. Fokus na interpretaciju i kvalitetu podataka.
  4. Klasične metode sličnosti teksta – konceptualno. Objašnjenje TF-IDF mjere i sličnosti između tekstova kroz primjer književnog korpusa ili novinskih članaka.
  5. Semantička sličnost i koncept embeddingsa. Kako se riječi i rečenice mogu “prevesti” u značenje; konceptualni primjer sličnosti među pjesmama, člancima ili povijesnim dokumentima.
  6. Tumačenje rezultata i kritička refleksija. Što znači kad su dva teksta “slična”? Diskusija o interpretaciji u humanističkom kontekstu.
  7. Što je pretraživanje informacija i kako ga razumjeti. Povijest i osnovne paradigme; primjeri iz knjižnica, digitalnih arhiva, medijskih baza.
  8. Model vektorskog prostora – konceptualno. Predstavljanje teksta kao “skupa značajki” ili “točaka u prostoru značenja”.
  9. Vjerojatnosni model pretraživanja – ideja i primjer. Kako se procjenjuje relevantnost teksta upitu; praktični primjeri.
  10. Duboko učenje i suvremeni alati: pretraživanje sličnih tekstova, analize semantičkog značenja.
  11. Klasifikacija dokumenata – osnovna ideja. Razvrstavanje tekstova prema temama ili stilovima; primjeri iz književnosti, medija ili povijesnih dokumenata.
  12. Duboko učenje u klasifikaciji – konceptualno. Kako se računalni modeli mogu učiti razlikovati stilove i žanrove; primjer: proza vs. poezija, vijesti vs. komentari.
  13. Primjena sličnosti i klasifikacije u istraživanju. Kombiniranje tehnika za analizu kolekcija tekstova, npr. istraživanje književnih korpusa ili digitalnih arhiva.
  14. Evaluacija i interpretacija rezultata. Kritičko razmatranje: što nam ovi rezultati govore o tekstovima? Diskusija o granicama i mogućnostima metoda za humanističke studije.
  15. Završni izvještaj

Ishodi učenja
  1. Student će moći opisati i primijeniti postupke obrade jezika, uključujući morfološku normalizaciju, korjenovanje i lematizaciju, u svrhu pripreme tekstova za analizu i pretraživanje.
  2. Student će moći primijeniti metode procjene sličnosti tekstova, koristeći klasične pristupe i pristupe temeljene na dubokom učenju, te interpretirati rezultate u praktičnom kontekstu
  3. Student će moći opisati model vektorskog prostora i vjerojatnosni model pretraživanja, te objasniti kako duboko učenje unapređuje pretraživanje i semantičko razumijevanje upita i dokumenata.
  4. Student će moći opisati i primijeniti metode klasifikacije dokumenata, koristeći klasične pristupe i pristupe temeljene na dubokom učenju, te procijeniti prednosti i ograničenja svakog pristupa.
Metode podučavanja
predavanja, vježbe, mješovito e-učenje, samostalni zadaci
Metode ocjenjivanja
pohađanje nastave, kolokvij, istraživanje, referat, praktični rad, usmeni ispit

Obavezna literatura
  1. Ignatow, G., & Mihalcea, R. (2017). Text mining: A Guidebook for the Social Sciences Thousand Oaks, CA: SAGE Publications, Inc doi: 10.4135/9781483399782 (selected chapters)
  2. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008
  3. Garg, M., Kumar, S., & Khader Jilani Saudagar, A. (Eds.). (2023). Natural Language Processing and Information Retrieval: Principles and Applications (1st ed.). CRC Press. https://doi.org/10.1201/9781003244332
Dopunska literatura
  1. G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press

Izborni kolegij na studijima
Novi i reformirani studiji
  1. Digitalna lingvistika, sveučilišni diplomski jednopredmetni studij, 2., 4. semestar
Fakultetska ponuda
  • Diplomski studij: Ljetni semestar