Umid-ii Локализация Клавиатура Орфография Cловарь  
 Встраиваемая панель инсрументовНаборы инструментов  Транслитерация в латиницу КОНВЕРТЕРЫ И ДЕКОДИРОВАНИЕ  Редактор списков  Планы и развитие
 

КОНВЕРТЕРЫ И ДЕКОДИРОВАНИЕ

ПРОБЛЕМЫ В ТЕКСТАХ  НА УЗБЕКСКОМ ЯЗЫКЕ.
ДОСТИЖЕНИЕ СОВМЕСТИМОСТИ В КОДАХ ДЛЯ ОБМЕНА ДОКУМЕНТАМИ.
ИСПРАВЛЕНИЕ КОДОВ В ДОПОЛНИТЕЛЬНЫХ ЛИТЕРАХ УЗБЕКСКОГО ЯЗЫКА
МАСТЕР ИСПРАВЛЕНИЯ КОДИРОВОК.
Ответы на Ваши вопросы
Обсудить тему

О проблемах в текстах на узбекском языке.

Задача связанная с переводом  документов, выполненных на узбекском языке в представление на латинской графике, влечёт за собой обязательное выполнение ряда подготовительных моментов. Одной из основных задач является принятие единого стандарта кодирования дополнительных литер узбекского языка. Эта задача вытекает из условия необходимости перевода текстов из их кириллического представления к отображении на латинской графике. Автоматизация (компьютерная обработка) этого процесса позволит ускорить внедрение Государственного Языка в учебные процессы. Это однозначно позволит ускорить издание учебной и методической литературы в Узбекистане.

В последних реализациях  Windows XP компания Microsoft  любезно предоставила наборы системных шрифтов с поддержкой кодов для литер из алфавита узбекского языка. Это явление положило начало в процесс "стандартизации" кодов и открыло возможность для пользователей компьютеров в Узбекистане осуществлять набор текстов на узбекском языке. А как быть с текстами, выполненными на компьютерах ранее?

Доступным решением для пользователя - является в задании поиска встроенными средствами WORD  Найти и Заменить по тексту. Это Вы можете выполнить,  когда используемый шрифт имеет поддержку Unicode, их размеры от 180кб и более. При использовании в текстах шрифтов от Windows 95 (их размер не более 80кб), такая возможность у пользователя отсутствует и текст может отображаться как угодно: от "иероглифов" до пустых "квадратиков". В дополнение к этому - отдельные литеры помечаются знаком "вопроса". В таких случая приходится все замены выполнять интуитивно, вручную. А если это книга, долго подготавливаемая к изданию? В таких текстах существуют множественные исправления, причём выполненных разными версиями шрифтов и на разных кодовых таблицах.

Решение такой задачи требует от пользователя больших знаний и системный подход. Попытка решения  заложена в WORD в его набор сервиса включена функция "Исправить повреждённый текст", которая исправляет путаницу перехода от ANSI кодирования к Unicode кодированию. Работает она только с кириллическими текстами на русском языке и одним набором шрифта в тексте. Она, в лучшем случае, избавит пользователей от упоминаемых "квадратиков", а остальное?

Учитывая неизбежность восстановления текстов , выполненных  на узбекском языке (для совместимости с Windows XP), подготовленных до появления предложенных шрифтов, признано необходимым создание специального программного обеспечения для обнаружения и замены в пользовательских документах кодов алфавита узбекского языка на предложенный вариант от Windows XP. Это позволит решить проблему обмена при планируемом электронном документообороте, а также позволит автоматизировать процесс их последующего перевода в латиницу.

 

Достижение совместимости для обмена документами.

Как упоминалось, для процесса декодирования (замены кодов) необходимо знать исходные варианты используемых в них кодов для набора с клавиатуры всех дополнительных литер узбекского алфавита. Задача многоплановая, так как ответ будет зависеть от состава шрифтовых наборов, установленных на данной платформе, и локализации ОС. Это  связанно с особенностями работы Windows, с её мощными функциями подстановки шрифтов. Ведь даже при отсутствии, необходимого для отображения документа, шрифта на Вашем компьютере, ОС выводит его отображение. Может оно и не всегда правильное, но не пустые строки...

После вывода такого документа на экран Вы должны заменить все "неправильные" коды символов на необходимые варианты, используя предложенные системой шрифты. Для решения этой проблемы Вы выполняете замену восьми  литер узбекского алфавита, а если ваш текст правился на разных компьютерах и разными шрифтами?

UMID-II решает такие задачи. При анализе исходного кода функция восстановления кодировки учитывает различные варианты кодов в используемых шрифтах. Правка кодов производится даже в "смешанных" вариантах текстов.

Набор конверторов для исправления кодировки

Два варианта декодирования:
первый - это интеллектуальный, выявляет коды узбекских литер в любых комбинациях их текстового набора;
второй - выполняющий замену только в именованном варианте шрифта, другие варианты кодов, кроме записанных, не выполняются.

Предлагаемые  группы конвертеров решат поставленные Вами задачи практически в любых текстах.

При тестировании этих конвертеров, вносимые ими изменения можно всегда отменить используя встроенную в WORD специальную команду Отменить (Undo)

 

Исправлением кодов дополнительных литер.

 После выполнения процедуры считывания документа, приложение  WORD получает о нём «служебную» информацию от ОС. Программа, исполняющая декодирование (замену кодов) , получая эти данные, приступает к их анализу, где  учитываются главные параметры шрифтов, такие как: название шрифта, размер для отображения в документе, наклон, жирность. Основным для процесса декодирования является - имя шрифтового семейства (набор из четырёх шрифтовых файлов: normal, bold, italic, bold-italic), по нему определяется метод восстановления (замена кодов) конкретного текста. 

Сам процесс декодирования выполняется в следующей последовательности: 
    -    выделяется предложение;
    -    выделяется первое слово;
    -    выделяется первый символ в этом слове;
    -    определяется имя шрифта для этого символа;
    -    по коду символа и имени шрифта определяется необходимость его замены;
    -    по табличным данным для этого шрифта определяется набор кодов для замены в текстах.

После завершения обработки целого предложения программа выбирает из текста следующее - и процесс повторяется. Как видно из перечня задач, процесс довольно утомительный, но при этом, он работает быстрее, чем встроенная функция WORD - "Восстановить повреждённый текст" и с текстами на узбекском языке.  Операция с заменой кодов узбекских символов делает эту функцию UMID - просто уникальной.

Для запуска процесса перекодирования текста необходимо:
-    выделить весь, или часть, документа ( при этом обязательно необходимо, чтобы фрагмент текста содержал пометку - на узбекском языке);
-    в меню UMID-II Новые возможности + Исправление кодировки щёлчком на пункте имени шрифта стартовать приложение.

По завершению работы приложения исходный шрифт будет заменён на Times New Roman. Выполнение этой задачи всегда можно прервать (остановить), используя клавишу Esc. Отменить результаты работы этой функции можно стандартными средствами WORD меню Правка + Отменить...

После выполнения всех исправлений символов, можно приступать к проверке орфографических ошибок в этом документе.

Мастер исправления кодов.

Задача связанная с перекодировкой  символов в документах, выполненных на узбекском языке к необходимому виду обусловлена их совместимостью при обмене информацией.

Эта идея, создания универсального инструмента возникла в результате накопленного опыта работы с большим количеством материала, требующего внесения постоянных  изменений.

По сути, задачей этого приложения является  запоминать начальные настройки индивидуально подобранные к различным наборам шрифтов. Далее выполняется обычная замена кодов. Всё так, но это приложение помогает запоминать раз и на всегда, а выполняемая им работа значительно сокращает затраты на решение Ваших проблем.

Предлагаемый "визард" для создания конвертеров позволит Вам создать необходимую серию новых конвертеров для исправления текстов на узбекском языке. Интерфейс этого "визарда" состоит из трёх страниц: на первой - описаны выполняемые им действия; на второй - представлен набор уже созданных для Вас конвертеров; на третьей (вид на рисунке) набор кодов для именованного конвертора. Вам предоставляется возможность исправить существующий набор, или создать для себя новый. При создании нового конвертера шрифт используемый в документе будет именованием этого конвертера. Клавиши восьми литер узбекского алфавита служат для запоминания кода выделенного в тексте символа.  После заполнения всех полей вы щёлкаете по клавише Готово. В меню UMID-II Новые возможности + Специальные конвертеры будет добавлен новый, одноимённый конвертер.

Мастер исправления кодировки

На рисунке виден набор, заменяемых кодов для шрифта BalticaUzbek. Этот шрифт широко используется в учебных заведениях (Ташкентский транспортный институт). Отображаемые на форме коды узбекского алфавита используются при наборе с клавиатуры в Windows XP, но это не коды их отображения в текстах. В этом можно убедится, заменой этого шрифта любой системный. Это одна из причин, из-за которой текст, выполненный этим шрифтом нуждается в декодировании (замена кода на требуемый) , для последующей совместимости с текстом Windows XP. После выполнения перекодирования, разработанным конвертером тексты Вашего документа становятся читабельным на других компьютерах с установленной Windows XP. Назначаемый после перекодирования текста шрифт Times New Roman можно заменить любым из системных: Arial, Courier New, Tahoma. Эти шрифты, после инсталляции Комплекса программ UMID,  имеют поддержку для отображения всех дополнительных символов узбекского алфавита. 

 

 

       ВРЕМЯ, НЕ ЖДЁТ..

    Вы можете высказать свои замечания автору проекта Комплекс программ UMID-II,  посетив открытый форум.

Обсудить тему

    Если   Ваше   предложение окажется  конструктивным, то Вы вправе   рассчитывать  на вознаграждение.  
Принимаются предложения от спонсоров и по вопросам коммерциализации проекта 
 e-mail 

       Для подробного изучения состава проекта Вы можете скачать его описание -  200k

 

 

Copyright © 1996 - 2004 BOLEX Group All Rights Reserved   » Patent
Hosted by uCoz