Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Българският език в дигиталната епоха — Резюме

Информационните технологии променят живота ни. Ежедневно използваме компютри, за да пишем, редактираме, изчисляваме, търсим информация, и все по-често за да четем, слушаме музика, да разглеждаме снимки или да гледаме филми. Носим малки компютри в джобовете си и ги използваме, за да позвъним, напишем имейл, да получим необходима информация или просто за да се позабавляваме, където и да се намираме. Как широкообхватната дигитализация на информация, знание и ежедневна комуникация влияе върху езика ни? Дали езикът ни ще се промени и дали е възможно дори да изчезне?

Компютрите ни са свързани един с друг в непрекъснато развиваща се компактна и мощна глобална мрежа. Момиче от Ипанема, ученик от Жеравна и инженер от Катманду могат да общуват с приятелите си във Фейсбук, но е малко вероятно да се срещнат един с друг в онлайн общности или форуми. Ако ги интересува как да излекуват главоболието си, те могат да потърсят повече информация в Уикипедия, но дори и тогава няма да прочетат една и съща статия. Когато европейските потребители на интернет обсъждат във форуми и чатове последствията от катастрофата във Фукушима за европейската енергийна политика, те го правят в ясно разграничени езикови общности. Всичко, което интернет съдържа и предлага, е все още разделено от езика на потребителите. Винаги ли ще бъде така? В научнофантастичните филми всички говорят един език – английски, китайски или български – в зависимост от това, къде се излъчва филмът. Възможно ли е езикът на космонавтите да бъде български, въпреки че те рядко биха употребявали български думи толкова естествено, колкото английски? Много от съществуващите в момента 6 000 езика едва ли ще оцелеят в глобализираното дигитално информационно общество. Предполага се, че поне 2 000 езика са обречени на изчезване в идните десетилетия. Други ще продължат да играят роля на семейно и регионално ниво, но не и в по-широки делови или академични кръгове. Какви са шансовете на българския език да оцелее? Българският език се говори от близо 9 милиона души предимно в България, но също и в Гърция, Македония, Румъния, Турция (европейската част), Украйна, Австралия, Канада, САЩ, Германия и Испания. За малка страна като България съществува относително голямо количество телевизионни канали на български език — седем национални телевизии, 16 кабелни и сателитни телевизии с многорегионално покритие и 46 — с регионално покритие. Повечето чужди филми са дублирани на български език. Книгите се връщат на мода, въпреки констатациите, че през последните години българинът е спрял да се интересува от литература. Българският е първият славянски език, който разполага със своя собствена писмена система, датираща от 9-ти век. На 1 януари 2007 г., когато България е приета за пълноправен член на Европейския съюз, кирилицата става третата официална азбука на Европейския съюз след латинската и гръцката. Някои среди изразяват недоволство от нарастващата употреба на чужди думи, особено английски, и дори съществуват страхове, че българският език ще се „прояде” от множество английски думи и изрази. През вековете българският език е устоял на влиянието на думи и термини от гръцки и латински – езиците на познанието, както и на навлизането на френски думи през 18-ти и 19-ти век. Добро противодействие срещу изчезването на обичаните от нас български думи е наистина да ги използваме – често и съзнателно. Главното ни притеснение не трябва да е нарастващото английско влияние върху езика, а пълното му изчезване от някои основни области на личния ни живот. Нито науката, нито авиацията или глобалният финансов пазар се нуждаят от език, разпространен по целия свят — lingua franca. В много области на живота е по-важно общуването с гражданите на страната, отколкото с международните партньори – вътрешната политика, например административните процедури, правото, културата и търговията. Статутът на езика зависи не само от броя на неговите носители, създадените книги и филми, телевизионните канали, които го използват, но и от присъствието на езика в дигиталното информационно пространство и софтуерните приложения. В това отношение българският език е относително добре представен: всички важни международни софтуерни продукти са локализирани за български, българската Уикипедия е на 34-а позиция сред 270 в света. Потребителите на интернет в България през 2009 г. са се увеличили с 31 % спрямо 2007 г. и вече са 46 % от цялото население. В областта на езиковите технологии за български също съществуват редица продукти, технологии и ресурси. Има приложения за възпроизвеждане на реч, проверка на правописа и граматиката. Съществуват и програми за автоматичен превод, макар че не винаги се предлагат лингвистично коректни преводи, особено когато преводът е от друг език на български. Това се дължи основно на специфичните езикови характеристики на българския език. Информационните и комуникационните технологии се подготвят за следваща революционна стъпка. След персоналните компютри, мрежите, миниатюризацията на техниката, мултимедията, мобилните устройства и паралелната обработка на информация, идва епохата на технологии, които ще разбират не просто букви или звукове, но и словосъчетания и изречения. Така те ще подпомагат в много по-голяма степен потребителите, тъй като ще говорят, знаят и разбират техния език. Пионери в тази сфера са например Гугъл преводачът, който предлага безплатен онлайн автоматичен превод между 57 езика, супер компютърът на IBM Watson, който победи шампиона на САЩ в играта „Jeopardy“ или мобилният асистент Siri на iPhone, който реагира на гласови команди и отговаря на въпроси на английски, немски, френски и японски.

Следващото поколение информационни технологии ще се усъвършенства в употребата на естествения език до такава степен, че потребителите ще общуват, използвайки технологиите на собствения си език. Устройствата ще могат автоматично да намерят най-важните новини и информация в световното дигитално изобилие от познание само с помощта на гласови команди. Езиковите технологии ще предлагат автоматичен превод или ще подпомагат превода, ще осигуряват резюмиране на диалог или на различни документи, а компютърно подпомогнатото обучение ще съдейства за по-лесното интегриране на малцинствени групи и чужденци. Следващото поколение информационни и комуникационни технологии ще създаде индустриални и обслужващи роботи (в момента все още в научните лаборатории), които точно ще разбират какво искат техните потребители и ще рапортуват за изпълнението на задачите си. Такова равнище на работа надхвърля простите множества от символи и речници, програми за проверка на правописа и правила за произнасяне. Технологиите трябва да надраснат опростените подходи и да започнат да моделират езика всеобхватно, вземайки под внимание както синтаксиса, така и семантиката, за да се разбере смисълът на въпросите и да се генерират пространни и адекватни отговори. Съществува огромна технологична пропаст между компютърната обработка на английски и български, която в момента се задълбочава. Всяко сравнение между технологиите показва, че резултатите от автоматичния анализ за английски са далеч по-добри от резултатите за български, макар че (или точно поради това) прилаганите методи са подобни или идентични. Това е вярно по отношение на автоматичното извличане на информация от текстове, проверката на граматиката и цялото множество от останали приложения.

Много учени смятат, че това се дължи на факта, че методите и алгоритмите в компютърната лингвистика и използването на езиковите технологии са преди всичко фокусирани върху английски. В подбрани водещи конференции и научни списания, публикувани между 2008 – 2010 г. се срещат 971 публикации, засягащи езикови технологии за английски, 228 – китайски и 90 за немски. За български са само 7. Други учени обаче мислят, че английският (както и езици като испански и френски) е по-податлив за компютърна обработка в сравнение с български с помощта на съществуващите методи. Това означава, че се нуждаем от целенасочени, постоянни и устойчиви научни изследвания, ако искаме да имаме възможността да прилагаме следващото поколение информационни и комуникационни технологии в областите от нашия личен и обществен живот, в които говорим и пишем на български. Може да се обобщи, за разлика от песимистичните прогнози, че българският език не е застрашен, независимо от съществуващото превъзходство по отношение на компютърната обработка на английски. Ситуацията обаче би могла да се промени съществено с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици. Чрез усъвършенстване на машинния превод с помощта на езиковите технологии биха могли да се превъзмогнат езиковите бариери, но само за тези езици, които съумеят да оцелеят в дигиталния свят. При адекватно развитие и употреба езиковите технологии ще осигурят оцеляването на езици, ползвани от сравнително малки групи от хора. Ако това не стане, дори „по-големи” езици ще бъдат подложени на жесток натиск. Зъболекарите предупреждават на шега: „Мий само зъбите, които искаш да запазиш”. Това важи и по отношение на политиката за подпомагане на научните изследвания. Но при едно условие: можеш да изучаваш всеки език на света, но трябва да развиваш езикови технологии за тези езици, които искаш да запазиш живи.

Езиковите бариери възпрепятстват развитието на бизнеса, особено на малките и средните предприятия, които нямат финансова възможност за решаване на подобни проблеми. (Немислима) алтернатива на многоезичието в Европа е да се позволи на един език да заеме доминираща позиция и да замени останалите езици. Един от начините за преодоляване на езиковите бариери е изучаването на чужди езици. Без използването на езикови технологии обаче усвояването на 23-те официални езика на Европейския съюз и още около 60 други европейски езика е непреодолимо препятствие пред европейските граждани, икономика, политически диалог и научен прогрес.

Решението е да се разработят ключови технологии: езикови технологии, които да предлагат на европейските инвеститори големи възможности – не само за развитие на общия европейски пазар, но и за търговски отношения с неевропейски държави, особено от нововъзникващите пазари. Езиковите технологии в бъдеще могат да бъдат уникален мост между европейските езици. Безспорна предпоставка за успешното разработване на езиковите технологии е задълбоченият анализ на характеристиките на всички европейски езици, както и на състоянието на съществуващите в момента езикови технологии.

Програмите за автоматичен превод и обработка на реч, които в момента са на пазара, не съответстват на поставените цели. Доминиращи в областта са основно частни компании от Северна Америка. Още през 70-те години на 20-ти век в Европейския съюз се осъзнава необходимостта от езикови технологии, които биха подпомогнали обединението в Европа, и започва финансирането на първите изследователски проекти като EUROTRA. По същото време се изпълняват и някои национални проекти, които дават важни резултати, но не се достига до обединени европейски усилия в тази насока. За разлика от разпокъсаните усилия в Европа други многоезикови общества като Индия (с 22 официални езика) и Южна Африка (с 11 официални езика) имат установени дългосрочни национални програми за изследване на езиците и развитие на езиковите технологии.

В преобладаващата си част езиковите технологии в момента разчитат на статистически подходи, които не използват задълбочени езиковедски методи и знание. Например често при автоматичен превод дадено изречение се сравнява с хиляди други изречения, преведени преди това от човек. Качеството на резултата зависи до голяма степен от обема и качеството на съществуващите езикови ресурси. Докато за езици с големи по обем езикови ресурси могат да се постигнат добри резултати при автоматичен превод на прости изречения, то за езици с ограничено количество ресурси, както и за езикови явления с по-сложна структура и по-малка честота на употреба повърхнинните статистически методи са неподходящи. Анализирането на дълбочинните характеристики на езиковите структури е единственият начин за успешното разработване на технологии, които дават добри резултати за всички европейски езици.

Ето защо Европейският съюз финансира проекти като EuroMatrix и EuroMatrix+ (от 2006) и iTranslate4 (от 2010), които се занимават с теоретична и приложна изследователска дейност и разработват ресурси за висококачествени езикови технологии за всички европейски езици. Европейската научноизследователска дейност в тази област вече е постигнала редица успехи. Например службите за превод на Европейския съюз използват софтуера за автоматичен превод с отворен код Moses, който се разработва основно по европейски научни проекти. Вместо да се надгражда върху резултатите от подобни проекти обаче, изследователската дейност в Европа продължава да се развива разпокъсано и има ограничена реализация на пазара. Икономическата стойност дори на най-ранните научни разработки може да се проследи в отделянето на различни съпътстващи производства и клонове.

На базата на съществуващия опит съвременните хибридни езикови технологии, използващи едновременно дълбочинна обработка и статистически методи, трябва да изградят мост между всички европейски езици и отвъд тях. Както показва настоящата серия Бели книги, съществуват огромни разлики в нивото на езиковите технологии и състоянието на научните изследвания в отделните страни — членки на Европейския съюз. Въпреки че за български език са разработени някои езикови ресурси и технологии, те са значително по-малко на брой и с по-ниско качество в сравнение с тези за английски. На основа на оценката, представена в този документ, става ясно, че трябва да бъдат предприети незабавни действия, за да се осигури напредък в развитието на езиковите технологии за български език.

Визията на META-NET е за висококачествени езикови технологии за всички езици с цел да се подкрепя политическото и икономическото единство чрез културното многообразие. Езиковите технологии ще помогнат за разрушаването на съществуващите бариери и за построяването на мостове между европейските езици. Това изисква обединение на бъдещите усилия на всички равнища – в политиката, научната сфера, бизнеса и цялото общество.

Серията Бели книги е в съответствие с други стратегически дейности, предприети от META-NET (вж. приложенията). Актуална информация като документа за визията на META-NET или Стратегията за развитие на научните изследвания (Strategic Research Agenda, SRA) може да бъде намерена на уеб страницата на META-NET: http://www.meta-net.eu.