Le Madénatarane
- Մատենադարանը
Qu'est-ce que l'Unicode ?
Ayant relevé dans certains écrits une désignation des caractères Unicode inexacte je voudrais apporter ici des précisions sur ce qu’est la dénomination des caractères Unicode dans un format décimal que certains nomment index unicode.
Unicode a été conçu par un Consortium de Sociétés travaillant dans l'informatique et la création de logiciels informatiques. Il a fallut imaginer conjointement un mode de conversion des codes caractères, en partant de la forme de codification actuellement en usage, vers un nouveau standard nommé Unicode. Cela concerne également les logiciels et polices Adobe créés pour le Mac d’Apple (pour les utilisateurs de PC lire le texte sur les Ponctuations Arménienne cela les informera sur le format utilisé sur le PC).
Apple (Macintosh) codifiait jusqu’à présent les caractères des polices par un nom et un index décimal qui permettait de les situer dans sa table des caractères.
Une table de caractères 8 bytes (Codepage) contient 256 cases et Apple codifiait les caractères de ses codepages de 0 à 255 - les noms précédaient ou suivaient sur la même ligne et cela a longtemps été suffisant.
A la venue d'Unicode cette numérotation est passée à la taille Unicode c'est à dire 256 x 256 = 65536 cases; - ceci pour la seule première planche de l'Unicode. Ces valeurs décimales sont devenues des nombres à 5 chiffres.
Nous savons qu’Unicode sera en final une pile de 256 planches semblables à la première et cela permettra d'atteindre le nombre de 65536 x 256 = 17.777.216 cases (plus de 17 millions de cases).
Serait-il logique de codifier les
glyphes en décimal avec des si grands chiffres?
Dans l'exemple des caractères arméniens lorsque nous serons à la version
finale Unicode nous aurons toujours le même code point Unicode en double-héxadécimal
(32 bits) auquel seront ajoutés, devant ceux déjà en place, 2 ou plus de
zéros : 0x0530 deviendra - 0x000530 puis 0x00000530 lorsque nous seront
en quadruple-héxadécimal
(64 bits) ce qui, comparativement, est plus efficace et plus facile à
utiliser. Qu’aurions-nous dans le cas de la numérotation décimale ?
Il faut aussi savoir que toutes les
cases ne seront jamais remplies car il y a des zones librement affectées
pour des usages libres. D'où cette réflexion: soit les valeurs décimales
prennent en compte la totalité des cases de cette première planche
Unicode, alors elles resteront bonnes un certain temps, soit les valeurs
décimales ne prennent en compte que les caractères existants
(actuellement) sur cette première planche Unicode et alors ces valeurs
changeront à chaque ajout ou suppression de caractères et seront vite
erronés.
Même dans une solution intermédiaire il n'y a aucune certitude que les
affectations décimales actuelles ne changent pour des raisons
d'extension...
Prenons pour exemple le cas de la zone affectée au rang arménien: la zone s'étend de 0x0530 à 0x058F, mais nous savons qu'actuellement, dans cette zone, nous avons encore 10 cases de libres.
Cette codification décimale est de
toute façon temporaire, puisque la création de polices OpenType (une
création commune Adobe et TrueType de polices intelligentes et
évolutives) supprime cette forme de codification pour être pleinement
Unicode. Il faut ajouter que ceci se passe aujourd'hui car ces polices
sont déjà en utilisation dans XP et Win 2000 et à présent Win Vista,
Windows 7.
Alors pourquoi utiliser cette nomination décimale des caractères ? A
quoi servira-t-elle ?
Il est vrai que certains logiciels anciens ne connaissant pas encore Unicode travailleront à l’aide de cette désignation décimale encore un peu de temps mais le temps est court et il faut en prendre l’habitude.
Il faut savoir que la désignation décimale du caractère n’est pas toujours la même.
Ainsi si nous travaillons avec une polices multi-codepage et
multilangues qui occupe environ 300 à 400 ko et que nous utilisions un
caractère que se trouve dans le rangement décimal en fin de police il
est fort probable que ce caractère porte alors un code décimal supérieur
à 900 ou 1000 avec une désignation spécifique de ce genre Շ mais
si, comme beaucoup d’utilisateurs, nous travaillons avec des polices
plus petites ou mono-langue cette valeur décimale sera sans aucun doute
dans les limites de 100 à 200. Comme l’on voit les code décimaux ne sont
pas toujours identiques pour le même caractère. Il se détermine en
fonction de l’environnement de l’utilisateur…
J’ajoute encore que cette même police, si elle est multi-codepage
donnera à la même lettre un code décimal différent selon la langue dans
laquelle le texte sera écrit car en changeant de codepage l’on déplace
automatiquement toutes les autres lettres de la police après celles du
codepage sélectionné qui devient d’office la table Première donc
occupant les 256 premières cases …
J’ai eu le cas dernièrement d’un texte écrit en Turc d’un Compatriote vivant à Istambul pour la recherche de ses proches essaimés dans le monde. La personne avait écrit avec sa police turque ANSI et toutes les accentuations avaient été remplacées par le format de code &#xxxx. Comme les accentuations sont désormais classées au format Unicode le texte était totalement déstructuré ce qui le rendait illisible. Ce genre de texte n’est lisible désormais que si l’on utilise la même police que celle qui a servie à l’écrire.
Il faut savoir avant tout que la base de référence d’Adobe est le nom du caractère. C’est ce nom qui est principalement retenu désormais. Pour preuve à cela nous voyons que dans les polices OpenType qui seront programmés en Python c’est le nom du caractère qui compte.
Cela se voit également lors de la création d’un fichier *.pdf (qui est un format Adobe) lorsque l'on utilise des caractères accentués dans les noms de fichier ou d'Auteur sous encodage Unicode, ces lettres, non encore reconnues, lues dans la version de base ANSI du codepage par défaut utilisé par les logiciels pour l'affichage des textes dans MAC ou Windows s’affichent dans le texte placés entre parenthèses et le caractères accentués s’affichent, après une barre inversée, sous un format décimal (toujours avec un numéro d’ordre propre à son emplacement dans cette police).
Une chose est certaine, et quiconque trouvera le temps d’aller sur le
site du Consortium Unicode le constatera, cette formulation décimale
n’est qu’un palliatif dans l’attente d’une intégration totale de l’usage
d’Unicode et de sa codification double-héxadécimale ou Nominale (mais
pas décimale). (www.unicode.org)
Les avantages de
l’Unicode :
C’est l’utilisation d’Unicode qui permet à toutes les langues, sans codepage universellement reconnu, de pouvoir correspondre ou envoyer des fichiers par Internet.
La langue arménienne est dans ce cas car l’Arménie n’a jamais travaillé à l’élaboration d’un codepage personnel propre à sa langue et s’est contenté de pirater le codepage russe et y placer les caractères arméniens pour son utilisation propre dans une zone géographique limitée. Bien que j’aie soulevé cette question il y a plus de quinze ans une atonie maladive semble avoir atteint ces responsables qui sont par ailleurs beaucoup plus actifs sur d’autres sujets. Il est navrant de voir que rien n’est fait pour mettre tous nos moyens de correspondance contemporains à l’Unicode et de créer des outils fonctionnant sous cette codification.
Les claviers arméniens, fournis par Microsoft pour être insérés dans les logiciels, ont toujours été incomplets et il a fallut que je les corrige personnellement pour les rendre finalement fonctionnels (cela continue avec Win VISTA et Win 7).
Là où une
personne seule a pût le faire quel aurait été le résultat si un Pays
Souverain l’avait fait pour tous les Arméniens du monde ?
Les moyens à utiliser ne sont-ils pas
définis en fonction de l’urgence des besoins. Comme c’est le cas pour
des relations et correspondances via Internet alors que jusqu’à ce jour
encore beaucoup de personnes sont dans l’obligation d’écrire en
translittération avec des lettres latines.
Est-ce que c'est cela que l’on veut ? Ou bien est-ce la preuve d'une
certaine irresponsabilité ?
Voilà pourquoi je fais ici un appel à toutes les bonnes volontés qui voudront bien donner un peu de leur temps pour faire avancer les choses.
En installant le correctif Le Plumier
Arménien chacun de nous pourra écrire directement partout dans le monde
en arménien et être lu par la personne que recevra son texte.
Cela permettra par ailleurs de correspondre également en arménien
directement avec les associations, groupements et autres bénévolats pour
l'Arménie, sans intermédiaires plus ou moins compétents, par
des moyens modernes, aisés et contemporains accessibles à tous ceux qui
désireront correspondre.
Ceci est un point que nous pouvons
déclarer acquis mais nous avons encore le problème de créer les outils
pour:
- la césure des textes arméniens; pour ne plus avoir ces fins de lignes
en escalier.
- le correcteur orthographique; qui permettra à chacun d’écrire sans
crainte et par la même
occasion d’enrichir son orthographe et son vocabulaire.
- le traducteur (mot à mot); afin de trouver rapidement les mots voulus
pour un texte agréable et
lisible.
- Le moteur de reconnaissance de caractères; pour traiter rapidement et
parfaitement les
conversions, les traductions et les transpositions d’un texte scanné
en texte exploitable et
transformable.
Il est possible de prolonger cette liste encore mais si nous avions déjà tout cela combien serions-nous heureux et fiers de ce que nous sommes....
Pour avoir une vue complète et exhaustive des questions et des réponses
sur tous les sujets relatifs à la modernisation de notre écriture et son
mode de rédaction informatisée lire les autres sujets qui se trouvent
dans la rubrique Réflexions.
J. E. AYVASIAN - Janvier 2011