sreda, 27. januar 2016

Računalniška lingvistika - VERONIKA CVELBAR

1. UVOD

Računalniška lingvistika je veda, ki združuje več ved, zato jo imenujemo interdisciplinarna veda. Sestoji iz računalništva in lingvistike, njena glavna naloga je analiza naravnih jezikov. Spada v podpodročje umetne inteligence, ki jo imenujemo jezikovna tehnologija.

UMETNA INTELIGENCA je del informatike, ki s pomočjo združevanja več ved poskuša ustvariti stroj, ki je po odzivih, razmišljanju in lastnem učenju podoben človeku.


JEZIKOVNA TEHNOLOGIJA se ukvarja s samodejno analizo naravnih jezikov. Poznamo več metod preučevanja:
  • statistične: frekvenca črk ali besed (ugotavlja, kolikokrat/s kakšno frekvenco se določen del pojavi v določenem besedilu)
  • krnjenje in lematizacija (iskanje in rudarjenje po besedilih s pomočjo besednih korenov oziroma znanih oblik besed, ki jih iščemo)
  • rudarjenje besedil (izpostavljanje glavnih informacij iz besedil, ki sama po sebi niso dovolj nazorna)
  • poskusi ločevanja metafor od dejanskih pomenov besednih zvez
  • prevajanje in upoštevanje jezikovnih zakonitosti
  • prepoznava govora in pisanje besedil po govoru


2. ZGODOVINA


Začetki vede računalniško jezikoslovje segajo v 50 leta 20. stoletja v ZDA, kjer so poskušali napisati programe, ki bi avtomatsko prevajali – takrat ruske znanstvene revije v angleščino. Sprva so menili, da naj bi bilo tak program zelo lahko napisati, kmalu pa so odkrili, da je naravni človeški jezik zelo kompleksna struktura. Ime računalniško jezikoslovje se danes nanaša predvsem na programe za inteligentno obdelavo jezikovnih podatkov. Kmalu so ugotovili, da za prevajanje program potrebuje poznati slovnici in besedišče obeh jezikov, pa tudi posebnosti, kot so metaforični pomeni in stalne besedne zveze. Danes se uporaba deli na dve glavni področji – procesiranje jezikov in poskušanje ustvariti čim preprostejše interakcije ljudi in strojev.


3. VEDI, KI SODELUJETA PRI PROCESU ANALIZE


INTERDISCIPLINARNA VEDA je veda, ki v svoje delovanje vključuje druge vede (UI vključuje matematiko, logiko, nevropsihologijo, psihologijo...)

RAČUNALNIŠTVO je veda o delovanju računalnikov, ki vključuje strojno in programsko opremo.

LINGVISTIKA je znanstvena veda, ki preučuje naravni jezik, njegovo tvorbo, zgodovinski razvoj in uporabo.

Slika 1: Nelinearna struktura preprostega stavka


4. STROJNO PREVAJANJE


Njegova zgodovina se začenja v istem času kot zgodovina računalniške lingvistike, čeprav pa ideje za prevajanje segajo že v 17. stoletje. Za prevajanje obstaja več načinov, na osnovi pravil, na osnovi podatkov ali kombinacije obeh prej omenjenih metod. Ločimo pa tudi linearno in nelinearno prevajanje. Kmalu so se pojavili prvi prevajalniki, dostopni na spletu, prvega pa ima sedaj v lasti Yahoo in se imenuje Yahoo Babel Fish. Prevajalniki so mnogo natančnejši, če prevajajo sorodne jezike (na primer med dvema indoevropskima, še bolje romanskima jezikoma), saj imajo ti podobno zgradbo in način tvorbe. Problemi, ki nastanejo pa so ravno v metaforah in drugih besednih zvezah, ki jih ljudje ne interpretiramo dobesedno, zato danes še ne moremo govoriti o zanesljivem in popolnoma učinkovitem strojnem prevajanju besedil.
Slika 2: Yahoo Babelfish



5. PREUČEVANJE BESEDIL IN ISKANJE AVTORJEV BESEDIL

 

Slog, v katerem piše vsak posameznik, ima določene matematične značilnosti, med njih spada tudi dolžina besede. V vseh njegovih delih se bo pojavljala določena številka, ki pove, koliko črk na besedo uporabi v določenem besedilu. Če je to število pri nekem besedilu drugačno, kot pri ostalih, obstaja velika možnosti da tega ni napisal isti avtor.
V besedilu lahko izračunamo tudi pogostost pojavljanja črk. V slovenščini je:

  •   najpogostejša črka e (pojavi se več kot 90 krat na 1000 črk)
  •   druge najpogostejše črke a, i, o in n
  •   najredkejša črka f (pojavi se enkrat na 1000 črk)
  •   druge najredkejše črke h, š, ž in c

(l. 1974, po 1. viru)

6. POKLICI

 

Poklici, ki sodelujejo pri računalniško analizi jezika so prevajalec, jezikoslovec, programer, mogoče pa se je ukvarjati tudi s primerjavo jezika in primerjavo književnosti.


7. ZAKLJUČEK







Računalniška obravnava jezikov je zagotovo možna, njena prednost pa je v hitrosti – računalnik veliko hitreje izvede zapisano zaporedje ukazov, kot bi jih človek, res pa je, da se na računalnike ne moremo vedno zanesti. Največji problem predstavlja kompleksna tvorba jezika, ki poteka v človeških možganih in to, da jezikoslovci še danes niso popolnoma razjasnili tega procesa. Če v algoritme poskušamo vključiti čim več jezikovnih posebnosti in popravimo napake, ki vodijo v napake v končnih rezultatih bomo kmalu zelo blizu programu, ki bo jezik analiziral zelo podrobno in natančno.
Zanimiva povezava - Izgubljeni v prevodih (besedila pesmi v angleščini, prevedena v drug jezik in spet nazaj v angleščino): http://www.bbc.co.uk/blogs/chartblog/2007/06/lost_in_translation.shtml





7. VIRI



  •  http://presek.si/2/2-1-Poniz.pdf PONIŽ Denis. 1974. Računalniki, jezikoslovje in prevajanje. Presek (online). Letnik 2. Številka 1. Strani 28-31. Dostopno na spletnem naslovu 16. 11. 2015 ob 16.30. ISSN 0351-6652
  • BURGER, Boštjan. 2001. Ţeljnske jame [online]. [Datum zadnjega popravljanja 22. maj. 2001; 17:24:52], [citirano 20. nov. 2003; 12:46]. Dostopno na spletnem naslovu: .


7. KAZALO SLIK

 

SLIKA 1: Univerza v Sheffieldu. 2012. Snytax [online] [citirano 16. 11. 2015 ob 17.00] Dostopno na spletnem naslovu: https://sites.google.com/a/sheffield.ac.uk/aal2013/branches/syntax/what-is-syntax
SLIKA 2:[online] [Datum zadnjega popravljanja 28. april 2006 ob 6.41][citirano 16. 11. 2015 ob 17.00] Dostopno na spletnem naslovu: http://www.tweakness.net/news/2400 Dostopno na spletu 16. 11. 2015


Ni komentarjev:

Objavite komentar

Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.