.RU

4. Машинный перевод - Системантика


^ 4. Машинный перевод

Под переводом понимается смысловое преобразование текста с одного языка (естественного или искусственного) на другой. В основе любого перевода лежит моделирование речевой деятельности человека. Она состоит из двух взаимосвязанных и взаимопроникающих аспектов. Один аспект представляет знания субъекта речевой деятельности о мире, о реальности и о себе. Другой аспект представляет его знания о языке, на котором практически реализуется языковая коммуникация. В процессе общения задействуются их части, касающиеся предмета разговора. Обобщенная функциональная технология любого перевода в инвариантном к языкам виде может быть схематично представлена абстрактной блок-схемой (рис. 93).




Рис. 93. Общая блок-схема дедуктивного машинного перевода


Машинный перевод – это выполнение показанных функций с помощью вычислительной техники. Традиционно он делится на два вида: дедуктивный и индуктивный.

Дедуктивный машинный перевод базируется на модели «текст – смысл – текст», основанной на пословной лексике и грамматических правилах. Такой перевод при сравнительно небольших словарях требует моделировать сложные грамматические процессы речевой деятельности человека.

Моделью индуктивного перевода является модель «текст – текст». Он осуществляется на переводных соответствиях фраз и выражений. Переводным соответствием называют пару, образованную отрезком входного текста и отрезком выходного текста, между которыми существует отношение смысловой эквивалентности. Это могут быть отдельные слова, словосочетания, фразы и возможно более длинные контекстные выражения. Переводное соответствие можно понимать как единицу перевода, взятую в динамике трансляционного процесса, различаемую в условиях конкретного текста, в рамках данной пары языков. В таком переводе основной переводной единицей выступают фразы, которые, с одной стороны, естественны для двуязычного общения людей, но, с другой стороны, требуют больших фразеологических словарей. Следует иметь в виду, что природе естественного языка присуща универсальная соразмерность сложности грамматических правил и объемов унитермных грамматических словарей. Для перевода текстов конкретных предметных областей упрощение грамматических правил вызывает необходимость существенного увеличения объемов фразеологических словарей. Для преодоления возникающей коллизии идут по пути объединения индуктивного и дедуктивного методов, обеспечивающих сочетание пословного и фразеологического перевода. В них доминантными единицами перевода выступают фразы. Но если при фразеологическом переводе остаются не охваченные эталонной фразой непереведенные слова, что влияет на качество перевода, то возможен и пословный перевод. Для таких систем машинного перевода кроме фразеологического словаря необходим и пословный.

В качестве примера такой системы можно привести систему RETRANS, находящуюся в промышленной эксплуатации1.

Система RETRANS построена на индуктивно-дедуктивном принципе фразеологического машинного перевода с автоматическим составлением двуязычных фразеологических машинных словарей по текстам, которые являются переводами друг друга (по биллингам). Созданы русско-английский и англо-русский политематические фразеологические машинные словари объемом 2,6 миллиона словарных статей или словари на бумажных носителях объемом 80 томов по 1 000 страниц каждый. При установленной необходимости повышения точности перевода после фразеологической фильтрации по кодам система аналогичным образом, автоматически по тексту выделяет непереведенные слова, составляет пословные словари и отождествляет по ним отдельные слова переводимого текста также по кодам.

Коды выступают единым целостным машинным носителем смысла переводимого двуязычного текста, а словари при этом выполняют роль смысловых фильтров.

^ 5. Индексирование документов и запросов

Процесс перевода основного содержания документа и запроса с естественного языка на информационно-поисковый с одновременным свертыванием текста при максимальном сохранении смысла получил название индексирования. Иными словами, индексирование – это выражение центральной темы текста средствами информационно-поискового языка, процесс составления поискового образа документа и запроса.

Процесс составления поисковых образов документов состоит из двух этапов:

1) анализ содержания документа и выявление главной темы (ключевых слов);

2) выбор терминов, входящих в поисковые образы документов (замена ключевых слов терминами информационно-поискового языка).

Анализ содержания документа проводится в определенной последовательности по единой схеме. Схема способствует повышению качества и постоянства индексирования. Выявление содержащейся в документе информации проводится по следующим смысловым аспектам:

определение предмета или темы;

описание основных характеристик предмета;

установление элементов предмета и их отношений;

установление связей предмета с другими предметами;

установление области применения предмета.

Эти смысловые аспекты составляют элементы формализованной модели свернутого содержания документа. В соответствии с этими смысловыми аспектами осуществляется выбор ключевых слов.

Выбор терминов, входящих в поисковые образы документов, находится в зависимости от принятого информационно-поискового языка. Наиболее распространенными являются языки классификационного и дескрипторного типа или их комбинации.

Процесс индексирования с помощью классификации представляет собой процесс соотнесения содержания текста документа со смысловым содержанием рубрик классификатора. При этом возможна замена выделенных ключевых понятий синонимичными или нижестоящими и вышестоящими. Подобный процесс выполняется для каждого выделенного понятия. Отождествленные с ключевыми понятиями рубрики записываются в поисковый образ документа (см. рис. 94).

Методика индексирования запросов определяется типом запроса и характером информации, ожидаемой в качестве ответа. В этом смысле выделяют два типа запросов:

1) запросы, ориентированные на получение информации по определенному предмету с указанием интересующих характеристик – так называемые многоаспектные узкоспециализированные запросы;

2) запросы обобщающего или обзорного типа, ориентированные на получение информации по группе предметов или по какой-либо теме.

Методика индексирования запросов первой группы мало чем отличается от методики индексирования документов. Методика индексирования запросов второй группы состоит в разбиении запроса на подзапросы с их последующим индексированием и объединением результатов в один поисковый образ.

Аналогичны процедуры индексирования на языке дескрипторного типа.



Рис. 94. Схема индексирования на классификационных ИПЯ



4-obshie-polozheniya-41-obshaya-harakteristika-specialnosti-obrazovatelnij-standart-respubliki-belarus.html
4-obshie-polozheniya-normi-tehnologicheskogo-proektirovaniya-gorodskie-i-selskie-telefonnie-seti-rd-45-120-2000-ntp.html
4-obshie-polozheniya-t-ivnih-dokumentov-v-stroitelstve.html
4-obshie-trebovaniya-k-razrabotke-osnovnoj-professionalnoj-obrazovatelnoj.html
4-obsluzhivanie-klienta-s-ispolzovaniem-sistemi-internetbank2-instrukciya-159-ot-02-06-2010-pravila-otkritiya.html
4-obzhalovanie-dejstvij-bezdejstviya-i-reshenij-dolzhnostnih-lic.html
  • ekzamen.bystrickaya.ru/spisok-affilirovannih-lic-otkritoe-akcionernoe-obshestvo-stranica-17.html
  • composition.bystrickaya.ru/ponyattya-brendu-tovarno-marki-brendngu-brend-menedzhmentu.html
  • studies.bystrickaya.ru/differenciaciya-obucheniya-kak-uslovie-razvitiya-odarennih-detej-chast-7.html
  • thesis.bystrickaya.ru/prognozirovanie-kachestva-drobleniya-massiva-gornih-porod-skvazhinnimi-zaryadami-po-klassam-krupnosti.html
  • notebook.bystrickaya.ru/informacionnij-vestnik-soveta-i-administracii-municipalnogo-rajona-stranica-3.html
  • znaniya.bystrickaya.ru/referat-filosofskoe-uchenie-o-kulture-vzaimodejstvie-prirodi-i-kulturi.html
  • kanikulyi.bystrickaya.ru/zanyatie-2-uchebno-metodicheskoe-posobie-predstavlyaet-soboj-sistemu-raboti-po-preodoleniyu-zaikaniya-u-vzroslih-kniga.html
  • writing.bystrickaya.ru/analogii-i-modeli-odin-iz-metodov-obucheniya-fiziki-srednej-shkoli.html
  • knowledge.bystrickaya.ru/moskomarhitektura-posobie-k-mgsn-01-99-energosberezhenie-v-zdaniyah-stranica-7.html
  • uchitel.bystrickaya.ru/publichnij-doklad-o-sostoyanii-obrazovatelnoj-sistemi.html
  • notebook.bystrickaya.ru/hozyajstvenno-biologicheskie-osobennosti-novih-sorto-podvojnih-kombinacij-vishni-v-pitomnike.html
  • control.bystrickaya.ru/dopolnitelnaya-literatura-dlya-realizacii-trebovanij-standarta-metodicheskie-rekomendacii-k-uchebniku-a-a-levandovskogo.html
  • crib.bystrickaya.ru/izveshenie-o-provedenii-otkritogo-aukciona-v-elektronnoj-forme-34-67ae12.html
  • learn.bystrickaya.ru/garri-potter-i-kubok-ognya-stranica-17.html
  • tasks.bystrickaya.ru/16-prochie-polozheniya-poryadok-provedeniya-zaprosa-predlozhenij-instrukciya.html
  • notebook.bystrickaya.ru/harakteristika-parovodyanih-ezhektornih-holodilnih-mashin-povaya-instrukciya-po-ekspluatacii-sistem-kondicionirovaniya.html
  • otsenki.bystrickaya.ru/ria-novosti-novosti-stran-sng-i-baltii-moskva-04022009-olga-kovalenko-nacbank-kazahstana-devalviroval-nacionalnuyu-valyutu-na-25.html
  • kontrolnaya.bystrickaya.ru/razdel-ti-izobrazhaesh-ukrashaesh-i-stroish-osnovnaya-obrazovatelnaya-programma-nachalnogo-obshego-obrazovaniya-moskva-2011.html
  • apprentice.bystrickaya.ru/verhovnij-tajnij-sovet.html
  • otsenki.bystrickaya.ru/skazka-lozh-da-v-nej-namek-dobrim-molodcam-urok.html
  • shpargalka.bystrickaya.ru/v-etoj-knizhke-predstavlen-material-po-tvoreniyu-zhizni-vo-vselennoj-i-na-zemle-a-takzhe-po-obyasneniyu-etogo-processa-s-ispolzovaniem-chisel-i-geometrii-obosno.html
  • uchenik.bystrickaya.ru/2-rabota-so-sredstvami-massovoj-informacii-bbk-65-0492.html
  • composition.bystrickaya.ru/osnovnaya-obrazovatelnaya-programma-visshego-professionalnogo-obrazovaniya-napravlenie-podgotovki-080200-menedzhment-stranica-21.html
  • lektsiya.bystrickaya.ru/posobie-dlya-uchitelej-i-logopedov-spb-karo-2004-stranica-8.html
  • urok.bystrickaya.ru/programma-disciplini-analiz-investicij-v-nedvizhimost-napravlenie-podgotovki-080300-68-finansi-i-kredit-magisterskie-programmi-finansovie-rinki.html
  • report.bystrickaya.ru/instrukciya-po-tehnicheskomu-obsluzhivaniyu-kompleksa-tehnicheskih-sredstv.html
  • lecture.bystrickaya.ru/analiticheskij-otchet-deyatelnosti-mo-istoriko-filologicheskogo-cikla-za-2009-2010-uchebnij-god.html
  • assessments.bystrickaya.ru/dlya-podachi-zayavleniya-neobhodimo-predostavit-sleduyushie-dokumenti.html
  • turn.bystrickaya.ru/plan-sushnost-kategorii-pedagogicheskaya-cel-podhodi-k-ee-opredeleniyu-taksonomiya-celej-istochniki-celepolaganiya-harakteristika-podhodov-k-opredeleniyu-soderzhaniya-vospitaniya.html
  • uchenik.bystrickaya.ru/konkurentnaya-borba.html
  • literature.bystrickaya.ru/eho-moskvi-eho-16082007-vorobev-aleksej-1900-gosduma-rf-monitoring-smi-17-avgust-2007-g.html
  • write.bystrickaya.ru/glava-9-razrabotka-proektnoj-dokumentacii-i-i-mazur-v-d-shapiro-n-g-olderogge.html
  • ekzamen.bystrickaya.ru/rossijskaya-federaciya-administraciya-birilyusskogo-rajona-krasnoyarskogo-kraya-postanovlenie.html
  • ekzamen.bystrickaya.ru/sklonenie-imyon-prilagatelnih-coderzhanie.html
  • ucheba.bystrickaya.ru/programma-doshkolnogo-obrazovaniya-dlya-grupp-kratkovremennogo-prebivaniya-detej-4-7-let-krasnoyarsk-2005-god.html
  • © bystrickaya.ru
    Мобильный рефератник - для мобильных людей.