Вход/Регистрация
Linux
вернуться

Стахнов Алексей Александрович

Шрифт:

Первые две строки указывают кодировку пользователя (character set = koi8-r) и кодировку имен файловой системы (client code page = 8 66).

Третья и четвертая строки определяют, что необходимо сохранять регистр длинных и коротких имен файлов.

telnet При возникновении проблемы ввода русских символов необходимо создать файл ~/.telnetrc, содержащий следующую строку:

DEFAULT set outbinary

Локализация и интернационализация

Как можно заметить, каждая из вышеперечисленных программ требует своего особого подхода, выражающегося в том или ином изменении индивидуальных конфигурационных файлов. Это сильно раздражает. А проблема возникла потому, что при проектировании программ не учитывались какие-либо национальные особенности.

Решение таких проблем основывается на двух базисных концепциях: локализации (Localization, lion) и интернационализации (Internationalization, il8n).

Под локализацией подразумевается написание программного кода, способного адекватно воспринимать, использовать и обрабатывать различающиеся стандарты представления данных для различных стран. Например: формат записи даты в США имеет вид ММ/ДД/ГГ, в странах СНГ – ДД.ММ.ГГ, а в Японии – ГГ.ММ.ДД. Помимо даты необходимо разрешить проблемы с представлением форматов времени, чисел, валюты и т. п. Кроме того, базовый аспект локализации – определение соответствующих классов символов.

Интернационализация должна решать проблемы, связанные со способностью программ взаимодействовать с пользователем на его родном языке.

Обе эти концепции должны быть стандартизованы, давая программистам непротиворечивый путь создания программ, работающих в национальной среде.

Локаль

Одно из основных понятий локализации – локаль (locale). Под локалью подразумевается набор соглашений, специфичных для отдельно взятого языка в отдельно взятой стране.

Каждая локаль определяет, по меньшей мере, следующие соглашения:

• классификация символов и преобразований;

• представление валюты;

• представление чисел;

• формат даты/времени.

Настройка локали

Локализация включается путем задания переменной окружения lang строкой:

export lang={язык}

В том случае, если такой строки не существует, используется значение локализации по умолчанию: lang="C" или lang="posix". По стандарту POSIX.2 язык локализации записывается в форме:

language_TERRITORY. Codeset

где

• language – двухсимвольный код, обозначающий язык (ru, fr и т. д.);

• TERRITORY – двухсимвольный код, обозначающий страну (RU, UA и т. д.);

• codeset – определяет кодировку символов.

Стандарт ISO 639 определяет коды языков, ISO 3166 – коды стран.

Для русского языка переменная lang устанавливается, как правило, равной LANG="ru_RU.KOI8-R" или LANG="ru_RU.ISO_8859-5".

Также по стандарту допустимы короткие именования значений локали, которые часто используются в качестве псевдонимов. Наиболее известная пара псевдоним-наименование: «С» – "POSIX".

Локализацию можно провести частично, либо определить для отдельных категорий локализации значения, отличные от общесистемной локализации.

В табл. 15.1 приведены опции локали.

Таблица 15.1. Опции локали

Посмотреть текущие значения категорий локализации можно утилитой locale (без параметров).

Интернационализация

Интернационализация детализирует способы общения программы с неанглоговорящим пользователем. Для этого при создании программы используются функции, специально предназначенные для создания интернационализированных программ. Эти функции и особенности их применения описываются документом LI18NUX 2000 Globalization Specification Version 1.0 with Amendment 2 Linux Internationalization Initiative (Lil8nux).

Кириллизация X Window

X Window в современных дистрибутивах кириллизованы «из коробки». Однако зачастую некоторая настройка X Window все же требуется. Рассмотрим кириллизацию X Window 4.x.

Установка шрифтов для X Window

Сначала необходимо установить кириллические шрифты. В современных дистрибутивах они включены в поставку, однако возможно найти и установить свои кириллические шрифты.

Предварительно следует проверить, установлены ли вообще кириллические шрифты в вашей операционной системе. Для этого выполните команду: xisfonts | grep koi8. В результате ее выполнения будет выдан список кириллических шрифтов. Еще один вариант – поискать местоположение шрифта, в котором заведомо присутствует кириллица: find / – name crox\*.pcf\*.

В том случае, если кириллические шрифты не обнаружены, установите их самостоятельно:

1. Создайте каталог /usr/lib/X11/fonts/cyrillic и скопируйте туда кириллические шрифты.

2. Если шрифты получены в формате BDF (файлы *.bdf), то перед использованием их необходимо скомпилировать. Для каждого шрифта выполните: bdftopcf -о <font>.pcf <font>.bdf.

3. В каталоге шрифтов для X Window должен присутствовать файл fonts.dir, хранящий список шрифтов, находящихся в каталоге. Этот список создается С ПОМОЩЬЮ команды: cd Скаталог где лежат шрифты>; mkfontdir.

4. Далее о появлении нового каталога шрифтов необходимо поставить в известность Х-сервер. Этого можно достичь несколькими способами:

– добавьте новый каталог к списку каталогов в файле XF86Config;

– добавьте новый каталог к файлу запуска xinit;

– персональная настройка. У пользователя есть специальный файл для X Window —.xinitrc.

5. Здесь мы добавляем каталог с новыми шрифтами в список каталогов, просматриваемых сервером в поисках шрифтов: xset +fp <новый каталог шрифтов>.

6. А теперь мы указываем серверу перечитать свои конфигурационные файлы: xset fp rehash.

Шрифты TrueType

Шрифты TrueType, в отличие от Typel, не являются «родными» для X Window. Первоначально разработанные компанией Apple, эти шрифты используются операционными системами серии Windows. Помимо большого разнообразия шрифтов формата TrueType, у них отсутствуют многие недостатки стандартных шрифтов X Window. Поддержка шрифтов TrueType встроена во все современные дистрибутивы XFree86.

Для того чтобы шрифты отображались в нужной кодировке, в каталоге, где находятся шрифты TrueType, необходимо создать два одинаковых файла, fonts.dir и fonts.scale, следующего вида:

12

timesi.ttf -monotype-Times New Raman-medium-i-normal–0-0-0-0-p-0-microsoft-cp1251

timesbi.ttf -monotype-Times New Roman-bold-i-normal–0-0-0-0-p-0-microsoft-cp1251

timesbd.ttf -monotype-Times New Roman-bold-r-normal–0-0-0-0-p-0-microsoft-cp1251

times.ttf -monotype-Times New Roman-medium-r-normal–0-0-0-0-p-0-microsoft-cp1251

couri.ttf -monotype-Courier New-medium-i-normal–0-0-0-0-m-0-microsoft-cp1251

courbi.ttf -monotype-Courier New-boId-i-normal–0-0-0-0-m-0-microsoft-cp1251

courbd.ttf -monotype-Courier New-bold-r-normal–0-0-0-0-m-0-microsoft-cp1251

cour.ttf -monotype-Courier New-medium-r-normal–0-0-0-0-m-0-microsoft-cp1251

ariali.ttf -monotype-Arial-medium-i-normal–0-0-0-0-p-0-microsoft-cp1251

arialbi.ttf -monotype-Arial-bold-i-normal–0-0-0-0-p-0-microsoft-cp1251

arialbd.ttf -monotype-Arial-bold-r-normal–0-0-0-0-p-0-microsoft-cp1251

arial.ttf -monotype-Arial-medium-r-normal–0-0-0-0-p-0-microsoft-cp1251

Кроме этого, здесь же необходимо создать файл encodings.dir, имеющий всего две строки:

microsoft-cp1251 /usr/X11R6/lib/X11/fonts/encodings/microsoft-cp1251.enc.gz

Если шрифты нужны в кодировке KOI8-R, то вместо microsoft-cp1251 следует прописать koi8-r. Если используется сервер шрифтов xfstt вместо xfsft, то необходимо применять опцию перекодировки:

xfstt ... -encoding koi8-r,windows-1251,iso8859-1

Ввод с клавиатуры

В X Window имеются два способа ввода символов с клавиатуры: устаревший – с помощью утилиты xmodmap и новый – с помощью модуля ХКВ (X KeyBoard). Мы рассмотрим только использование ХКВ.

При старте Х-сервера модуль ХКВ считывает текстовые конфигурационные файлы. Данные, получаемые модулем ХКВ, состоят из 5 компонентов:

• keycodes – таблицы, которые задают символические имена для скан-кодов клавиатуры;

• types – описывает типы клавиш;

• compat – описывает модификаторы. В ХКВ имеется несколько внутренних переменных, которые определяют, какой символ будет генерироваться при нажатии клавиши в конкретной ситуации. В compat описывается, как изменяются переменные при нажатии различных клавиш-модификаторов;

• symbols – таблицы, в которых для каждого скан-кода перечисляются все значения, которые должна выдавать клавиша;

• geometry – описывает расположение клавиш на клавиатуре.

Эти компоненты находятся в одноименных каталогах в дереве каталога библиотек X Window.

Набор компонентов, необходимых для настройки ХКВ, описывается в файле конфигурации Х-сервера в секции Keyboard.

Настройка ХКВ

Для настройки ХКВ в файле конфигурации X Window необходимо определить параметры XkbRules, XkbModel, XkbLayout, XkbVariant и XkbOptions.

Например,

XkbRules «xfree86»

XkbModel "pc104"

XkbLayout "ru"

XkbVariant "winkeys"

XkbOptions "grp:shift_toggle"

В вышеприведенном примере определяется, что ХКВ должен воспользоваться правилами, описанными в файле xfree86, использовать настройки для клавиатуры типа рсЮ4 (104 клавиши), русский алфавит (в дополнение к английскому алфавиту), xkbvariant определяет, что используется Windows-клавиатура. XkbOptions определяют дополнительные настройки клавиатуры, в частности, комбинацию клавиш для переключения раскладки клавиатуры «русская-английская».

Варианты клавиш для переключения раскладки клавиатуры:

• grp: toggle – переключение нажатием правой клавиши <Alt>;

• grp: shift_toggle – переключение нажатием комбинации клавиш <Shift>+<Shift>;

• grp: ctrl_shift_toggle – переключение нажатием комбинации клавиш <Ctrl>+<Shift>;

• grp: ctrl_alt_toggle – переключение нажатием комбинации клавиш <Ctrl>+<Alt>;

• grp: switch – переключение нажатием правой клавиши <Alt> (только на момент нажатия);

• ctrl: ctrl_ac – переключение нажатием клавиши <CapsLock>.

Полная документация по настройке ХКВ размещена на Web-странице Ивана Паскаля по адресу www.tsu.ru/~pascal/other/xkb/.

Работа с текстом

Этот раздел посвящен программам, тем или иным способом обрабатывающим текст.

Проверка правописания

Одна из лучших программ проверки правописания для операционных систем UNIX – программа ispell. Ее путем добавления новых словарей можно использовать при проверке правописания текстов, написанных на языках, отличных от английского.

Для правильной работы ispell необходимо скомпилировать с поддержкой 8-битных символов и установить словарь русских слов. О некоторых таких словарях рассказано ниже.

Словарь Александра Лебедева

Словарь постоянно совершенствуется и дополняется и корректируется. Отличительной чертой его является полноценная поддержка буквы ё. Последнюю версию словаря можно найти по адресу ftp://mch5.chem.msu.su/ pub/russian/ispell/rus-ispell.tar.gz.

Словарь Константина Книжника

В поставку словаря включен скрипт, обеспечивающий инкрементный режим проверки правописания слов для emacs. Найти словарь можно по адресу www.ispras.ru/~knizhnik.

Редактор vim

После корректной настройки редактор vim нормально работает с кириллическими символами. Единственное неудобство: редактор понимает управляющие команды, набранные только в английской раскладке. Такое ограничение можно обойти, произведя (для командного режима) отображение кириллических символов на английские с помощью опции langmap. Для этого достаточно добавить в файл. vimrc две строки:

set langmap=ж;;

set lang-

тар=е`,йq,цw,уe,кr,et,ну,гu,шi,щo,зр,х[,ъ],фа,ыs,вd,аf,пg,рh,оj,лк,дl,э\',яz,чx,cс,мv,иЬ,тn,ьm,б\,,ю.,Е~,ЙQ,ЦW,УE,КR,ЕT,НY,ГU,ШI,ЩO,ЗP,Х{,Ъ},ФA,ЫS,ВD,АF,ПG,РH,ОJ,ЛK,ДL,Ж:,Э\",ЯZ,ЧX,СC,МV,ИB,ТN,ЬM,Б<,Ю>

Редактор joe

Для того чтобы распознавать 8-битные символы, joe использует опцию -asis. Ее можно указать в командной строке или вставить в файл. joerc.

StarOffice

StarOffice 5.2 – может работать с различными кодировками кириллицы. Таких кодировок поддерживается три: KOI8-R, ISO 8859-5, СР1251. Текущая кодировка определяется по значению переменной окружения lang.

StarOffice использует два вида шрифтов: растровые (pcf) для элементов интерфейса и Typel – для печати и отображения документов на экране.

Самая полная информация по русификации StarOffice содержится на Web-странице Леона Кантера по адресу www.blackcatlinux.com/StarOffice/.

Выбор кодировки для работы со StarOffice

Как указывалось выше, StarOffice 5.2 может работать в одной из трех кодировок: KOI8-R, IS08859-5, СР1251. Каждая из этих кодировок имеет свои достоинства и недостатки.

• KOI8-R. Достоинство – позволяет в этой кодировке отправлять письма и сообщения в группы новостей. Недостатки: при импорте из Microsoft Word не хватает символов (недостающие заменяются вопросительными знаками).

• ISO 8859-5. Единственная кодировка, которая позволяет работать в StarOffice 5.2 со встроенными в эту версию словарями для проверки русской орфографии и переносов. Содержит также украинские и белорусские буквы. Недостатки: письма, отправленные в этой кодировке, не читаются большинством доступных клиентов.

• СР1251. Позволяет корректно импортировать документы из Microsoft Office, содержит полный набор специальных символов, включая знак Евро, дает возможность работать на любом из славянских языков. Недостатки – недоступен русский словарь.

Для запуска StarOffice в кодировке, отличной от системной, можно указать полное имя locale непосредственно в командной строке:

  • Читать дальше
  • 1
  • ...
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: