1. UVOD
Računalniška lingvistika je veda, ki združuje več ved, zato jo imenujemo interdisciplinarna veda. Sestoji iz računalništva in lingvistike, njena glavna naloga je analiza naravnih jezikov. Spada v podpodročje umetne inteligence, ki jo imenujemo jezikovna tehnologija.
UMETNA INTELIGENCA je del informatike, ki s pomočjo združevanja več ved poskuša ustvariti stroj, ki je po odzivih, razmišljanju in lastnem učenju podoben človeku.
JEZIKOVNA TEHNOLOGIJA se ukvarja s samodejno analizo naravnih jezikov. Poznamo več metod preučevanja:
- statistične: frekvenca črk ali besed (ugotavlja, kolikokrat/s kakšno frekvenco se določen del pojavi v določenem besedilu)
- krnjenje in lematizacija (iskanje in rudarjenje po besedilih s pomočjo besednih korenov oziroma znanih oblik besed, ki jih iščemo)
- rudarjenje besedil (izpostavljanje glavnih informacij iz besedil, ki sama po sebi niso dovolj nazorna)
- poskusi ločevanja metafor od dejanskih pomenov besednih zvez
- prevajanje in upoštevanje jezikovnih zakonitosti
- prepoznava govora in pisanje besedil po govoru
2. ZGODOVINA
Začetki vede računalniško jezikoslovje segajo v 50 leta 20. stoletja v ZDA, kjer so poskušali napisati programe, ki bi avtomatsko prevajali – takrat ruske znanstvene revije v angleščino. Sprva so menili, da naj bi bilo tak program zelo lahko napisati, kmalu pa so odkrili, da je naravni človeški jezik zelo kompleksna struktura. Ime računalniško jezikoslovje se danes nanaša predvsem na programe za inteligentno obdelavo jezikovnih podatkov. Kmalu so ugotovili, da za prevajanje program potrebuje poznati slovnici in besedišče obeh jezikov, pa tudi posebnosti, kot so metaforični pomeni in stalne besedne zveze. Danes se uporaba deli na dve glavni področji – procesiranje jezikov in poskušanje ustvariti čim preprostejše interakcije ljudi in strojev.
3. VEDI, KI SODELUJETA PRI PROCESU ANALIZE
INTERDISCIPLINARNA VEDA je veda, ki v svoje delovanje vključuje druge vede (UI vključuje matematiko, logiko, nevropsihologijo, psihologijo...)
RAČUNALNIŠTVO je veda o delovanju računalnikov, ki vključuje strojno in programsko opremo.
LINGVISTIKA je znanstvena veda, ki preučuje naravni jezik, njegovo tvorbo, zgodovinski razvoj in uporabo.
Slika 1: Nelinearna struktura preprostega stavka |
4. STROJNO PREVAJANJE
Njegova zgodovina se začenja v istem času kot zgodovina računalniške lingvistike, čeprav pa ideje za prevajanje segajo že v 17. stoletje. Za prevajanje obstaja več načinov, na osnovi pravil, na osnovi podatkov ali kombinacije obeh prej omenjenih metod. Ločimo pa tudi linearno in nelinearno prevajanje. Kmalu so se pojavili prvi prevajalniki, dostopni na spletu, prvega pa ima sedaj v lasti Yahoo in se imenuje Yahoo Babel Fish. Prevajalniki so mnogo natančnejši, če prevajajo sorodne jezike (na primer med dvema indoevropskima, še bolje romanskima jezikoma), saj imajo ti podobno zgradbo in način tvorbe. Problemi, ki nastanejo pa so ravno v metaforah in drugih besednih zvezah, ki jih ljudje ne interpretiramo dobesedno, zato danes še ne moremo govoriti o zanesljivem in popolnoma učinkovitem strojnem prevajanju besedil.
Slika 2: Yahoo Babelfish |
5. PREUČEVANJE BESEDIL IN ISKANJE AVTORJEV BESEDIL
V besedilu lahko izračunamo tudi pogostost pojavljanja črk. V slovenščini je:
- najpogostejša črka e (pojavi se več kot 90 krat na 1000 črk)
- druge najpogostejše črke a, i, o in n
- najredkejša črka f (pojavi se enkrat na 1000 črk)
- druge najredkejše črke h, š, ž in c
(l. 1974, po 1. viru)
6. POKLICI
Poklici, ki sodelujejo pri računalniško analizi jezika so prevajalec, jezikoslovec, programer, mogoče pa se je ukvarjati tudi s primerjavo jezika in primerjavo književnosti.
7. ZAKLJUČEK
Računalniška obravnava jezikov je zagotovo možna, njena prednost pa je v hitrosti – računalnik veliko hitreje izvede zapisano zaporedje ukazov, kot bi jih človek, res pa je, da se na računalnike ne moremo vedno zanesti. Največji problem predstavlja kompleksna tvorba jezika, ki poteka v človeških možganih in to, da jezikoslovci še danes niso popolnoma razjasnili tega procesa. Če v algoritme poskušamo vključiti čim več jezikovnih posebnosti in popravimo napake, ki vodijo v napake v končnih rezultatih bomo kmalu zelo blizu programu, ki bo jezik analiziral zelo podrobno in natančno.
Zanimiva povezava - Izgubljeni v prevodih (besedila pesmi v angleščini, prevedena v drug jezik in spet nazaj v angleščino): http://www.bbc.co.uk/blogs/chartblog/2007/06/lost_in_translation.shtml
7. VIRI
- http://presek.si/2/2-1-Poniz.pdf PONIŽ Denis. 1974. Računalniki, jezikoslovje in prevajanje. Presek (online). Letnik 2. Številka 1. Strani 28-31. Dostopno na spletnem naslovu 16. 11. 2015 ob 16.30. ISSN 0351-6652
- Umetna inteligenca [online] [datum zadnjega popravljanja 15. marec 2015, 11.50] [citirano 16. 11. 2015 ob 16.30]. Dostopno na spletu https://sl.wikipedia.org/wiki/Umetna_inteligenca
- Računalniško jezikoslovje [online] [datum zadnjega popravljanja 4. marec 2015 ob 21.02] [citirano 16. 11. 2015 ob 16.30] Dostopno na spletnem naslovu: https://sl.wikipedia.org/wiki/Ra%C4%8Dunalni%C5%A1ko_jezikoslovje
- http://splet-stari.fnm.uni-mb.si/pedagoska/programi/nem/Germanistik_files/virtual/petric/pdf/infoling/slides/Rpdb_slides.htm Dostopno na spletu 16. 11. 2015
- Strojno prevajanje [online] [datum zadnjega popravljanja 13. januar 2015, 14.32] [citirano 16. 11. 2015 ob 16.30]. Dostopno na spletu https://sl.wikipedia.org/wiki/Strojno_prevajanje
- Jezikovne tehnologije [online] [datum zadnjega popravljanja 4. maj 2015, 21.02] [citirano 16. 11. 2015 ob 16.30]. Dostopno na spletu https://sl.wikipedia.org/wiki/Jezikovne_tehnologije
- Govor in jezikovne tehnologije [online] [citirano 16. 11. 2015 ob 16.30]. Dostopno na spletu http://lektoriranje.net/clanki/govor_in_jezikovne_tehnologije.html
- Computational linguistics [online] [datum zadnjega popravljanja 13. september 2015, 20.26] [citirano 16. 11. 2015 ob 16.30]. Dostopno na spletu https://en.wikipedia.org/wiki/Computational_linguistics
- BURGER, Boštjan. 2001. Ţeljnske jame [online]. [Datum zadnjega popravljanja 22. maj. 2001; 17:24:52], [citirano 20. nov. 2003; 12:46]. Dostopno na spletnem naslovu: .
7. KAZALO SLIK
SLIKA 1: Univerza v Sheffieldu. 2012. Snytax [online] [citirano 16. 11. 2015 ob 17.00] Dostopno na spletnem naslovu: https://sites.google.com/a/sheffield.ac.uk/aal2013/branches/syntax/what-is-syntax
SLIKA 2:[online] [Datum zadnjega popravljanja 28. april 2006 ob 6.41][citirano 16. 11. 2015 ob 17.00] Dostopno na spletnem naslovu: http://www.tweakness.net/news/2400 Dostopno na spletu 16. 11. 2015
Ni komentarjev:
Objavite komentar
Opomba: Komentarje lahko objavljajo le člani tega spletnega dnevnika.