Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Suomen kieli digitaalisella aikakaudella — Tiivistelmä

Tietotekniikka muuttaa jokapäiväistä elämäämme. Käytämme tietokoneita kirjoittamiseen, tekstin muokkaamiseen, laskemiseen, tiedon etsimiseen ja yhä enemmän myös lukemiseen, musiikin kuunteluun sekä valokuvien ja elokuvien katseluun. Kannamme taskuissamme pieniä tietokoneita, joilla soitamme puheluja, lähetämme sähköpostia ja viihdytämme itseämme siellä missä kulloinkin satumme olemaan. Kuinka tämä valtava informaation, tietämyksen ja arkisen viestinnän digitalisoituminen vaikuttaa kieleemme? Muuttuuko suomen kieli tai voiko se jopa kadota? Kaikki tietokoneemme ovat yhteydessä toisiinsa entistä tiheämmän ja tehokkaamman maailmanlaajuisen verkon kautta. Tyttö Ipanemassa, tullimies Imatralla ja insinööri Katmandussa voivat jutella ystäviensä kanssa Facebookissa, mutta toisiinsa he tuskin koskaan verkossa törmäävät. Jos he ovat huolissaan korvasärystä, he käyvät lukemassa Wikipediasta kaiken mahdollisen tämän vaivan hoitoon liittyvän, mutteivät silloinkaan lue samaa artikkelia. Ja kun Euroopan nettikansalaiset keskustelevat Fukushiman ydinonnettomuuden vaikutuksista eurooppalaiseen energiapolitiikkaan, tapahtuu ajatustenvaihto erikseen kunkin kieliyhteisön sisäisillä keskustelupalstoilla. Kielet erottavat edelleenkin sen minkä Internet voisi yhdistää. Tyydymmekö tähän tilanteeseen myös tulevaisuudessa?

Tieteiselokuvissa kaikki puhuvat samaa kieltä. Voisiko tämä yhteinen kieli olla suomi, vaikka astronautit harvoin lausuvat suomalaisia sanoja yhtä luonnollisesti kuin he puhuvat englantia? Monet maailman 6000 kielestä eivät tule selviytymään globalisoituneessa digitaalisessa tietoyhteiskunnassa. Arviolta vähintään 2000 kieltä on tuomittu sukupuuttoon tulevina vuosikymmeninä. Joitakin kieliä mahdollisesti käytetään jatkossakin perheissä ja kyläyhteisöissä, mutta ei yrityksissä tai akateemisessa maailmassa. Minkälaiset siis ovat suomen kielen selviytymismahdollisuudet?

Suomea puhuu yli 5 miljoonaa ihmistä, joten se on moniin muihin kieliin verrattuna kohtalaisen hyvässä asemassa. Suomenkielisiä julkisia televisiokanavia on neljä ja yksityisiä yli 30. Useimmat kansainväliset elokuvat tekstitetään suomeksi. Suomen kieli on todennäköisesti hieman vahvistanut asemiaan sen jälkeen kun Suomi liittyi EU:n täysjäseneksi. Kielen puhujien, kirjojen, elokuvien ja televisiokanavien määrän lisäksi tietyn kielen tilanne riippuu myös sen digitaalisesta läsnäolosta tietoverkoissa ja sovellusohjelmissa. Tälläkin mittapuulla suomi sijoittuu kohtalaisen hyvin: kaikki keskeiset kansainväliset ohjelmistotuotteet ovat saatavilla suomalaisina versioina, suomenkielisessä Wikipediassa on yli 290000 artikkelia ja verkkotunnus .fi on hyvin suosittu.

Kieliteknologian alalla suomen kielelle on tarjolla kohtuullinen määrä tuotteita, teknologioita ja kielivaroja. On olemassa suomenkielisiä sovelluksia ja työkaluja puhesynteesiä, puheentunnistusta, tiedonhakua sekä oikeinkirjoituksen ja kieliopin tarkistusta varten. On olemassa myös joitakin automaattista kääntämistä varten kehitettyjä sovelluksia, vaikka ne eivät usein tuotakaan kielellisesti ja idiomaattisesti oikeita käännöksiä varsinkaan kun suomi on kohdekielenä. Tähän ovat osittain syynä suomen kielen erityispiirteet.

Tieto- ja viestintätekniikka valmistautuvat nyt seuraavaan vallankumoukseen. Mikrotietokoneita, multimediaa, tietoverkkoja, laitteiden pienentymistä, multimediaa, mobiililaitteita ja pilvilaskentaa seuraava teknologian sukupolvi luo ohjelmistoja, jotka ymmärtävät kirjainten ja äänteiden lisäksi myös kokonaisia sanoja ja lauseita. Tällaiset ohjelmistot palvelevat käyttäjiään entistä paremmin, koska ne puhuvat ja ymmärtävät heidän kieltään. Alan edelläkävijöitä ovat ilmainen online-palvelu Google Translate, joka kääntää 57 kielen välillä, IBM:n supertietokone Watson, joka päihitti Jeopardy-tietovisassa Yhdysvaltojen mestarin, sekä Applen iPhoneen kehittämä Siri-avustaja, joka reagoi äänikomentoihin ja vastaa englanniksi, saksaksi, ranskaksi ja japaniksi esitettyihin kysymyksiin.

Tietotekniikan seuraava sukupolvi tulee hallitsemaan ihmiskielen niin laajasti, että erikieliset käyttäjät pystyvät viestimään keskenään kukin omalla kielellään. Helppokäyttöisten äänikomentojen pohjalta laitteet osaavat hakea automaattisesti tärkeimmät uutiset ja muuta tietoa maailman digitaalisista tietovarannoista. Kieliteknologian avulla voidaan tehdä automaattisia käännöksiä ja avustaa tulkkeja. Sitä voi käyttää tulevaisuudessa myös keskustelujen ja asiakirjojen tiivistämiseen sekä opiskelun tukena. Kieliteknologia voi esimerkiksi auttaa maahanmuuttajia oppimaan suomea ja integroitumaan paremmin suomalaiseen kulttuuriin.

Seuraavan sukupolven tieto- ja viestintätekniikan avulla kehitellään jo nyt tutkimuslaboratorioissa teollisuuden ja palvelualan robotteja, jotka sekä ymmärtävät täysin mitä käyttäjät niiltä haluavat että osaavat raportoida omista saavutuksistaan. Tällaiseen suoritustasoon pääseminen vaatii paljon enemmän kuin pelkkien merkistöjen, sanakirjojen, oikolukuohjelmien ja ääntämissääntöjen käyttöä. Yksinkertaistettu lähestymistapa teknologiassa ei enää riitä, vaan on ryhdyttävä mallintamaan kieltä kokonaisvaltaisesti. On samanaikaisesti huomioitava sekä syntaksi että semantiikka, jotta myös mutkikkaita kysymyksiä voidaan ymmärtää ja antaa niihin perusteellisia ja relevantteja vastauksia.

Englannin ja suomen välillä on kuitenkin ammottava teknologinen kuilu, joka tätä nykyä vieläpä levenee. 1980- ja 1990-luvun menestyksekkäiden tutkimussaavutusten jälkeen Suomi on nyt menettämässä rooliaan kieliteknologian edistäjänä. Kieliteknologian perustutkimusta rahoitettiin tutkimuksen huippuyksikön tasolla 1980- ja 1990-luvuilla, mikä johti useiden kehitettyihin tuotteisiin perustuvien yritysten perustamiseen.

Perustutkimuksen rahoituksen kauden jälkeen teknologiateollisuuteen liittyvät hankkeet ovat saaneet vain pienimuotoista rahoitusta Tekesiltä (teknologian ja innovaatioiden kehittämiskeskukselta). Tämän seurauksena Suomi (ja koko Eurooppa) menetti joitakin erittäin lupaavia huipputekniikan innovaatioita Yhdysvaltoihin, jossa tutkimuksen strateginen suunnittelu on pitkäjänteisempää ja rahoitusta on paremmin saatavilla myös uusien teknologioiden markkinoille tuomiseen. Vaikka uraauurtavalla tuoteidealla onnistuisikin saamaan varaslähdön teknologisten innovaatioiden kilpailussa, voi oman etulyöntiasemansa varmistaa vain siinä tapauksessa, että pystyy myös ylittämään maaliviivan. Muuten käteen jää pelkkä kunniamaininta Wikipediassa.

Kun kieliteknologian perustutkimuksen rahoitus väheni, siirtyivät monet suomalaiset asiantuntijat erilaisiin pienyrityksiin. Yhdysvaltalaiset yritykset käyttivät resurssejaan kehittääkseen teknologioista itselleen käyttökelpoisia tuotteita. Tästä huolimatta Suomessa on edelleen hyvin suuri tutkimuspotentiaali. Kansainvälisesti tunnettujen tutkimuskeskusten ja yliopistojen lisäksi täällä on myös innovatiivisia pieniä ja keskikokoisia kieliteknologiayrityksiä, jotka pysyvät hengissä silkan luovuuden ja valtavien ponnistusten ansiosta, vaikka niillä ei olekaan riskipääomaa tai jatkuvaa julkista rahoitusta. Suomenkielisen kieliteknologian varhaisen kaupallisen menestyksen takia ei tutkimusyhteisö enää päässytkään käyttämään suomen kielen käsittelyyn kehitettyjä perustyökaluja kuten jäsentimiä ja sanastoja. Yllättävänä seurauksena tästä suomalaisissa tutkimusprojekteissa ei enää juuri käytetty nimenomaan suomen kielelle kehitettyä teknologiaa, vaan useimmat tutkimus- ja kehitystyön tuloksina syntyneet prototyypit pohjautuivat englannille.

Riittävän kielivaroja ja perustutkimusta tukevan rahoituksen puutteen vuoksi suomi on harvoin ollut edustettuna kansainvälisissä teknologiakilpailuissa. Näin on käynyt esimerkiksi tiedonpoiminnan, kieliopin tarkistuksen, konekääntämisen ja monien muidenkin sovellusalojen kohdalla.

Monet tutkijat arvelevat näiden ongelmien johtuvan siitä, että jo viidenkymmenen vuoden ajan sekä tietokonelingvistiikan algoritmit ja menetelmät että kieliteknologisten sovellusten tutkimus ovat ensisijaisesti keskittyneet vain englannin kieleen. Vuosina 2008–2010 julkaistujen johtavien konferenssijulkaisujen ja tieteellisten aikakauslehtien valikoimassa 971 artikkelissa käsiteltiin englanninkielistä kieliteknologiaa ja vain kymmenessä suomenkielistä. Tanska ja ruotsi olivat paremmin edustettuina: tanskankielisestä teknologiasta puhuttiin 26:ssa ja ruotsinkielisestä 19:ssä artikkelissa. Norjan kieli jäi hännänhuipuksi vain kahdella artikkelilla.

On kuitenkin sellaisiakin tutkijoita, joiden mielestä englanti luonnostaan sopii paremmin tietokoneella käsiteltäväksi. Nykymenetelmillä myös espanjan ja ranskan kaltaiset kielet ovat paljon helpompia käsitellä kuin suomi. Tarvitsemme siis asialleen omistautuvaa, johdonmukaista ja pitkäjänteistä tutkimustyötä, jos haluamme hyödyntää tieto- ja viestintäteknologian seuraavaa sukupolvea niillä yksityis- ja työelämämme alueilla, joilla nyt puhumme ja kirjoitamme suomea. Kaiken kaikkiaan voidaan todeta, että tuhon ennustajista ja englanninkielisen tietojenkäsittelyn kyvykkyydestä huolimatta suomen kieli ei ole vaarassa. Tilanne voi kuitenkin dramaattisesti muuttua, kun uusi teknologiasukupolvi todella alkaa osata ihmiskieliä. Konekääntämisen kehittyessä kielimuurien ylittäminen kylläkin helpottuu, mutta vain sellaisten kielten välillä, jotka ovat selviytyneet digitaalisessa maailmassa. Myös pienet kielet selviytyvät varmemmin, jos niille on saatavilla sopivia kieliteknologisia välineitä.

“Harjaa vain niitä hampaita, jotka haluat pitää”, varoittaa hammaslääkäri leikkisästi. Varoitus pätee myös tutkimuksen tukitoimiin. On kuitenkin muistettava, että opiskella voi mitä kieltä tahansa, mutta kallista teknologiaa kannattaa kehittää ainoastaan niitä kieliä varten, joiden halutaan säilyvän elinvoimaisina.

META-NETin pitkän tähtäimen tavoite on tuoda korkealuokkaista kieliteknologiaa kaikkien kielten saataville, jotta poliittinen ja taloudellinen yhtenäisyys voidaan saavuttaa kulttuurinen monimuotoisuus säilyttäen. Teknologia tulee avustamaan olemassa olevien esteiden poistamisessa ja yhteyksien rakentamisessa Euroopan kielten välille. Tarvittava teknologinen kehitys edellyttää, että kaikki toimijat politiikan, tutkimuksen kuin yhteiskunnan saralla yhdistävät voimansa tavoitteen saavuttamiseksi.

Kieliteknologisissa hybridimalleissa kielen syvärakenteen prosessointi yhdistyy tilastollisiin malleihin. Uskomme niitä hyödyntävän modernin kieliteknologian mahdollisuuksiin rakentaa yhteyksiä Euroopan kielten välille. Tässä raportissa kuvataan Euroopan jäsenvaltioiden kieliteknologian tutkimuksen tilannetta ja kartoitetaan käytettävissä olevien ratkaisujen valmiusastetta kussakin META-NETin jäsenmaassa.

META-NET Valkoiset kirjat -julkaisusarja on hankkeen keskeisiä tehtäviä ja se toimii pohjana strategisille toimenpide-ehdotuksille. META-NET julkaisee ajantasaista tietoa toiminnastaan, kuten visiopaperin ja strategisen tutkimussuunnitelman, verkkosivuillaan http://www.meta-net.eu.