Les caracteres chinois et l'informatique sur des PC francais,
font ils bon menage ?


Il etait une fois des caracteres que l'on ecrivait sur une feuille avec un pinceau et de l'encre. Puis, les ordinateurs sont venus. Notre objet dans ce document est d'expliquer, donner des outils pour voir/saisir des caracteres chinois, traditionnels et simplifies, et ce sur une meme page. Et, en francais. C'est assez ardu pour le novice, surtout les aspects de codification. S'il manquait quelque chose dans le document, ou vous notez des erreurs, merci de nous le signaler. Notez qu'une telle compilation a ete le fruit de plusieurs annees de recherches, apprentissage et un beau cadeau de l'auteur a FranceChine car une telle explication n'existe pas sur l'internet a ce jour. Ou en tout cas pas en un seul endroit ( notions de mathematique, normes, codification, polices de caracteres ... ) Meme en anglais c'est tres dur de tout trouve, explique de A a Z. ( nous n'avions pas trouve avant )

Le document est structure en deux documents :
Dans un premier temps on explique aux gens qui veulent que ca marche sans se soucier de "comment".
Dans un deuxieme temps a la rubrique "Toutes les explications ? Accrochez vous. " on explique en detail, comment. 
Pour cette suite du document pour l'assimiler il est recommende de prevoir ... un certain temps. Notez que tout n'est pas informatique. Les normes n'ont rien d'informatiques. Ce sont simplement des listes de caracteres. L'implementation de ces normes que l'on appelle les "codifications", elles sont uniquement devouees pour les ordinateurs et tout systeme d'affichage allant du micro-onde aux telephones. Surtout elle ssont utiles a partir du moment ou 2 equipements ou plus communiquent entre eux afin de se comprendre.


Sommaire

Preambule
1. SYSTEME WINDOWS
11. Afficher du Chinois sur le Web avec des systemes non chinois
12. Saisir du Chinois sur le Web avec des systemes non chinois
Explications detaillees : Normes, codification, glyphe, GB, BIG5, UNICODE, Chinese Star ...
13. Le cantonais

2. SYSTEME UNIX , MAC

---------------------------------------------------------------------------------------------------------------------------------------------------------------------
Preambule

Tout d'abord je tiens a preciser que je ne suis pas du tout specialiste. En redigeant ce document je me suis appercu que c'est un vaste sujet dont je ne fais pas le tour complet. Au moins j'explique les aspects de visualisation et de saisie avec plusieurs methodes et , surtout explique comment on peut avec UNICODE melanger du chinois simplifie et du traditionnel dans un meme document.Une explication est aussi donnee sur les codifications informatique.

Il est conseille pour le novice de preparer au moins 2 heures a la lecture du document.

Je souhaite citer une personne et un site tres interessants en la matiere : http://www.jvgruat.com/Chine/sitemap.htm
et aussi le newsgroup qu'il anime news:fr.lettres.langue.chinoise. Merci JVG.

1. SYSTEME WINDOWS

11 ) Afficher du Chinois sur le Web avec des systemes non chinois
Par defaut les dernieres versions des browsers le font et vous n'avez rien a faire.

Sinon il "suffit" d'installer les polices de caracteres et de parametrer votre browser pour lui dire de prendre cette fonte.

Pour afficher du Chinois en general on parle de deux fontes, l'une pour le simplifie l'autre pour le traditionnel.

1) Recuperer des fontes ( fonte = police de caracteres )
Exemple : http://www.twinbridge.com/products/AsianTTF/cttfont.html
Il y a une bonne font qui est par defaut dans Microsoft Internet Explorer.
Cliquez sur les deux boutons pour recuperer les programes qui vont installer
les fontes. Ne vous preoccupez pas du reste car c'est lie au logiciel qu'ils vendent.

TSC JFangsong SG TT pour le simplifie
TSC FFangsong S5 TT pour le traditionnel

Les volumes sont en gros de 6MB pour le traditionnel et 3MB pour le simplifie. Executez les deux binaires. Apres installation, deux fichiers
de meme nom que la fonte doivent se trouver dans votre repertoire C:\windows\fonts

2 ) Dans votre client Web il faut maintenant lui dire que pour le Chinois il faut utiliser cette fonte.
A faire deux fois : une fois pour le simplifie et traditionnel. Ne vous trompez pas !
TSC JFangsong SG TT pour le simplifie
TSC FFangsong S5 TT pour le traditionnel

Je n'ai aucune idee des libelles des systemes francais, n'en utilisant jamais.
View ( ou Tools = Outils ) /Options/Font pour Microsoft et
Edit/Preferences/Appearance/Font pour Netscape
http://www.twinbridge.com/products/AsianTTF/cttfont.html

3) ATTENTION : Il se peut tres bien qu'une page web, mal concue, ne dise pas au navigateur que le contenu est du chinois. Alors le client sera perdu et affichera n'importe quoi. Dans ce cas il faut vous meme le specifier. Allez alors dans les menus genre View /encoding pour Microsoft et
View / character set pour Netscape puis selectionnez le type voulu, simplifie ou traditionel

4) Autre sites, par exemple :

Traditionnel :
http://www.cs.cityu.edu.hk/~fuk/gimp/ctlg.html
http://mssjus3.www.conxion.com/msdownload/ieinstall/ie3lpktw.exe (MingLiU)
ftp://ftp.hku.hk/pub/WWW/ie3lpktw.exe ( taille = 2,895,952 )

Simplifie :
http://mssjus3.www.conxion.com/msdownload/ieinstall/ie3lpkcn.exe (MS Song)
ftp://ftp.hku.hk/pub/WWW/ie3lpkcn.exe ( taille = 2,895,952 )
 

12) Pour saisir du Chinois sur le web
Il y a un kit IME mais uniquement pour Microsoft Explorer
http://www.microsoft.com/msdownload/iebuild/ime5_win32/en/ime5_win32.htm

Pour saisir du Chinois avec tout logiciel ( genre Word ) il faut en fait des logiciels commerciaux.
Genre : Chisese Star, Twinbridge, NJ Star, RichWin.
Ces logiciels permettent de saisir a partir de methodes phonetiques ou par les cles des caracteres [...cf ci dessous aux methodes ].

Il y a aussi (surtout) des petites extensions materielles avec un petit tapis, sur lequel on ecrit avec un stylet et le caractere est reconnu et insere a l'ecran dans le champ de saisie courant. PenPower par exemple ou les modeles de la societe Legend ( moins chers )

13) Le cantonais ( voir sur notre site la rubrique cantonais )
Le cantonais a une serie de caracteres propres que l'on peut telecharger a partir du site du gouvernement.
C'est l'HKSCS http://www.info.gov.hk/digital21/eng/hkscs/introduction.html

---------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pour la suite du document pour l'assimiler il est recommende de prevoir ... un certain temps.
---------------------------------------------------------------------------------------------------------------------------------------------------------------------

Notez que tout n'est pas informatique. Les normes n'ont rien d'informatiques. Ce sont simplement des listes de caracteres.
L'implementation de ces normes que l'on appelle les "codifications", elles sont uniquement devouees pour les ordinateurs et tout systeme d'affichage allant du micro-onde aux telephones. Surtout elle ssont utiles a partir du moment ou 2 equipements ou plus communiquent entre eux afin de se comprendre.

Toutes les explications ? Accrochez vous.

Generalites et contraintes informatiques.
Pour faire en sorte que votre PC avec un systeme non chinois arrive a tout de meme afficher ou permettre la saisie il faut installer quelques composants supplementaires. La liste des composants depend de quelle fonction ( lire / ecrire ) on souhaite et dans quels logiciel ( Internet Explorer, Word, Outlook, Notepad...).

Quelques definitions :

Normes ISO-10646 est la norme de l'UCS (liste de caracteres prevue pour lister 2^32 caracteres - 4 octets. ). Elle decrit une liste de caracteres. UNICODE est une autre liste, qui au depart pensait se limiter a 2^16 caracteres. Elle decrit une liste de caracteres, de maniere plus approfondie que l'ISO, y compris la glyphe. Les deux sont des tables qui decrivent un caractere par son nom et lui donne un numero entier. -> Regroupement des deux consortiums. Au debut ils travaillaient sur une table de 2 octets couvrant de nombreuses langues surtout occidentales. ( BMP=Basic Multilingual Plane. It already includes chinese ) Aucune ne mettent de caracteres dans la plage xD800 - xDFFF

Encodage Au debut, pour representer jusqu'a 2 octets. Ceci vise a definir comment representer en terme d'octets les sequences de la table. UCS-2 : L'ISO-10646 represente sa table (U+0000 a U+FFFF ) avec un encodage dit UCS-2, de 2 toujours octets. Chaque caractere de la table prend 2 octets pour le codifier, meme les premiers. Bigendian octet de poids fort en premier. Historiquement dans la definition de la norme les plages au dela de U+FFFF (2^16 et donc besoin de plus de 2 octets, n'ont ete definies qu'apres 2001. Donc 2 octets etaient suffisants d'ou UCS-2 qui peut representer tout caractere en dessous de U+FFFF de la table. Puis UCS-4 a ete mis en place, 4 octets donc representation complete d'UCS.

Dans les UTF-8 et UTF-16, les 8 et 16 sont pour preciser si l'encodage est de base 8bits ou 16 et non la version 8 et la version 16 qui succederait. Rien a voir. UTF-8 (UCS transformation format ) de 1 a 6 octets avec pour principe de ne pas avoir de 0 ( UNIX ). invente en 1992. Il code les 2^31 premiers caracteres de la table UCS. Donc plus que UCS-2. Encodage de taille variable au niveau de l'octet -> UTF-8 UTF-16 : Variable sur 16 bits. ( pas de nombre d'1 ou 2 octets ) Note : la partie basse (BMP) est comme UCS-2. Attention, pas comme UTF-8 Chaque caractere sous xFFFF est represente par la meme valeur sur 16 bits. -> UCS-2. Chaque caractere au dessus est prefixe par un nombre de la plage xD800 - xDFFF, et un autre. Ce n'est donc pas du tout le successeur d'UTF-8 mais la continuite d'UCS-2.

UCS-4 and UTF-32 — functionally identical 32-bit fixed-width encodings

Pour savoir si soit UTF-8 ou UTF-16 est plus efficace, cela depend des caracteres dans le texte.

- Norme : la norme est pour identifier chaque caractere. En gros c'est une liste qui decrit, un par un les caracteres et leur associe un unique identifiant, un numero par exemple. Une norme n'a aucun lien avec l'informatique. C'est un dictionnaire de caracteres et rien de plus.

La norme BIG5 fonctionne avec la codification BIG5 pour les caracteres traditionnels.
La norme GB (pour "Guojia Biaozhun" ou "norme nationale" ) pour les simplifies. GB 18030-2000 reprend la liste de la norme ISO/IEC 10646-1:2000 mais ... met un numero different ...

La UNICODE a fait une liste pour de nombreuses langues y compris le chinois, japonais, coreen, thai, vietnamien, des langues perses, africaines, ...
La norme ISO ( ISO/IEC 10646-1:2000 ) est en fait la source, UNICODE decrit un peu mieux. Une norme n'est pas du tout liee a l'informatique. C'est juste une liste qui dit "ce caractere est celui qui est a la page 312 du dictionnaire xxx et a la 514, 12eme ligne de tel autre dictionnaire. Il se prononce pppp avec telle methode, il est tres utilise ... Bref des millions de lignes pour decrire. Les seules normes completes sont en Chine et ont ete faites il y a des annees. Ce sont bien sur les dictionnaires chinois. Le seul ajout a ces normes pour l'informatique c'est de mettre un numero pour chaque caractere. Dire, le premier du dictionnaire est le numero 1, le 2eme est le 2 ... et de choisir une liste de caracteres ( sur les dizaines de milliers, rares sont les normes completes - certains caracteres ne sont utilises que dans de tres precises occasions tres tres rarement rencontrees. Il y restent et ne font pas partie des normes recentes. ). Donc les normes recentes, en vue de faire une liste de caracteres ne sont en fait que des regressions par rapport aux anciennes listes dans les dictionnaires. Elles en sont un sous ensemble. Pour 99,99 % de la population elles sont toutefois largement suffisantes car elles regroupent bien plus de caractere que ce qu'engrange le lettre, meme celui qui connait 8000 caracteres. Donc, pour resumer, une norme est une liste et elle decrit quel caractere est inclus dedans et lui donne un identifiant, un numero unique. Donc un meme caractere peut avoir un numero dans une norme et un autre dans une autre norme. Et, une fois de plus une norme n'a rien d'informatique. C'est juste une liste. Au telephone si vous n'etes pas sur vous pouvez dire c'est le numero 2388 de telle norme et de maniere non ambigue vous identifiez 1 caractere.
Ainsi dans une norme appelee UNICODE on definit ainsi un caractere
En disant, arbitrairement, son numero dans cette norme sera 3400, et on le definit avec des attributs :
En cantonais il se prononce Yau1 dans la methode Yale
Dans le dictionnaire HanYu il est a la page 10015, ligne 30
Dans le dictionnaire KangXi il est a la page 78 ligne 10
En mandarin il se prononce Qiu1
Si on l'ecrit il y a 5 traits
...
et plein d'autres attributs pour le definir. Il n'y a rien d'informatique la dedans.

U+3400 kCantonese YAU1
U+3400 kDefinition (same as 丘) hillock or mound
U+3400 kHanYu 10015.030
U+3400 kIRGHanyuDaZidian 10015.030
U+3400 kIRGKangXi 0078.010
U+3400 kIRG_GSource KX
U+3400 kIRG_JSource A-2121
U+3400 kIRG_TSource 6-222C
U+3400 kMandarin QIU1
U+3400 kRSUnicode 1.4
U+3400 kSemanticVariant U+4E18
U+3400 kTotalStrokes 5

La liste complete
ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip
http://www.unicode.org/charts/unihan.html

Passons a l'informatique.

Quelques definitions :

- chiffre/lettre : 0, 1, 2, 3,4 ,5 ... 9, A, B, C... c'est sur 1 position

- valeurs d'un chiffre : Nous sommes habitues a des chiffres qui peuvent prendre des valeurs de 0 a 9. C'est dit le systeme decimal. Imaginez maintenant un autre systeme ou ce chiffre ne peut QUE prendre 2 valeurs, 0 et 1. On compte alors ainsi 0, 1 et fini. Ensuite il faut un 2eme chiffre pour faire un plus grand nombre. Le nombre etant compose de plusieurs chiffres 00, 01, 10, 11 et fini il en faut un 3eme 000, 001, 010, 011, 100, 101, 110, 111. De la meme maniere on peut inventer un autre systeme et dire que un chiffre peut prendre les valeurs 0, 1, 2 ... 9, A, B, C, D...Z ce qui en ferait 36 possibles. Dans ce systeme, si on garde la sequence A, B, C, ... A vaut 10 en decimal et B vaut 11 et C=12, D=13, E=14, F=15 ... Un nombre peut etre AB12Z.
Un systeme existant s'appelle hexadecimal et utilise jusqu'a F. Donc dans ce systeme on peut avoir, sur 1 chiffre, 16 valeurs, de 0, 1, 2 ... 9, A, B,C,D,E,F. Un nombre peut etre 12C4D

- nombre : combinaison de plusieurs chiffres : 123, 345, 1983256 ... 0, 01, 0101010101
Les ordinateurs, historiquement et toujours, enregistrent les informations sur des unites de base appelees "bit". Cette unite peut prendre la valeur 0 ou 1, soit 2 valeurs, c'est dit binaire. Le chiffre de base ne peut prendre 2 valeurs, 0 ou 1. Cela vient de l'electronique qui ne stoque que "il y a du courant dedans" ou "il n'y en a pas", deux valeurs que l'on represente sur le papier par 1 et 0. C'est l'information de base. Quand on compte en general, un chiffre peut prendre 10 valeurs ( 0, 1, 2, 3, 4,5 ,6 7, 8, 9 ) par ce que l'on compte dans un systeme decimal ou chaque chiffre peut prendre 10 valeurs - c'est arbitraire. Revenons aux ordinateurs en binaire. On ne va pas pouvoir lister tous les caracteres chinois avec 0 et 1 ? Donc si vous combinez 2 bits, deux chiffres qui ne peuvent prendre que les valeurs 0 ou 1, cela peut faire combien de combinaisons ? 4. En combinatoire cela se calcule par <nombre de possibilites du chiffre> puissance <nombre de chiffre dans le nombre> . ( 2 puissance 2 ) (00, 01, 10, 11 ). Si vous combinez 3 chiffres, un XXX ou chaque X peut prendre 0 ou 1 comme valeur cela fait 2 puissance 3 ( 000, 001, 010, 011, 100, 101, 110, 111 ) soit 8 nombres. Maintenant prenez un nombre sur 4 positions, un XXXX ou chaque X ne peut prendre que 2 valeurs, 0 ou 1, cela donne 2 puissance 4 ... ainsi de suite. Les ordinateurs, ( de part leur electronique ) sont faits pour traiter des unites elementaires de 8 bits, un nombre sur 8 positions, s'appele un "octet". Un octet peut donc prendre 2 puissance 8 valeurs soit 256 valeurs de 0 a 255. C'est toujours pas avec ca que l'on va codifier les milliers de caracteres chinois. Donc pour le chinois on utilise des nombres sur 2 octets, soit 16 positions XXXXXXXX - XXXXXXXX ou chaque X est 0 ou 1. Deux (2) puissance 16 est voisin de 65000. Ah bon enfin, c'est assez grand pour le chinois courant et aussi d'autre langues. Un octet (8 bits ) se decoupe aussi en 2 paquets de 4 bits. 4 bits ca fait 2 puissance 4 = 2x2x2x2 = 16 Ce 16 peut facilement se representer avec 0, 1, 2, 3 ... A, B, C, D, E, F Donc par usage on represente un octet avec deux chiffres ou chacun peut aller de 0 a F. 00, 01, 02, 0A ( egale 10 ), 0B ( egale 11 ) , mais aussi 7B, 8E, E8 ... et FF qui vaut 255. C'est le systeme que l'on appelle hexadecimal sur 16 valeurs. On peut representer un octet par deux chiffres du systeme hexadecimal.

En decimal - En hexadecimal

0 - 0
1 - 1
2 2
3 3
... ...
8 9
9 9
10 - A
11 - B
12 C
13 D
14 E
15 F

Par exemple 31981 est en decimal. Si vous le mettez en hexadecimal vous aurez 7CED
7 = 7
C = 12
D = 13
E = 14

7C = (7x16) + 12 = 124
ED = 14x16 + 13 =237

D'ou [7C] [ED] = [ (124) x 256 ] + [237 ] = 31981

- Contrainte americaine : Les ordinateurs doivent aussi prendre en compte de ne pas gaspiller l'espace. Pour les PC europeens ou americains la majorite de ce qui est saisi est du a, b, c, d ...z soit 26 valeur, ajouttez 0, 1, 2...9 ca fait 36, les !@#$%... ceci qui tient tres facilement dans 1 octet, 256 valeurs, c'est meme trop grand ! Pas besoin de tout mettre sur des XXXXXXXX XXXXXXXX

- Contrainte chinoise : Il faut plus de place que le petit octet (256 valeurs possibles ) pour lister tous les caracteres. Il faut au moins 2 octets. Si je vous ecris 12 32 45 34 56 78 comment savez vous que 12 c'est pour une lettre sur 1 octet et 45 34 c'est en fait 1 caractere chinois qui utilises 2 octets et non pas deux lettres 45 et 33 ? Comment ? On ne peut pas le savoir en regardant une suite de caractere.

- Contrainte informatique : Les ordinateurs ne comprennent ni "a" ni "b" ni un caractere chinois. Ils ne traitent que des nombres.
Leur logique interne, ou celle de l'ecran fait que si on leur envoie le nombre 12 ils affichent un A. C'est une regle pre definie. On aurait bien pu mettre un autre nombre mais on est parti d'un nombre et on suit l'alphabet. Une des premieres codifications ( disant que tel nombre correspond a telle lettre est l'EBCDIC et l'ASCII qui en gros ne traitent que l'alphabet de A a Z.

- codification [ accrochez vous ! ] : C'est une definition qui dit que telle lettre/caractere ( a, b, c, #, @, !, %, * ... ) ou caractere chinois de la norme, sera informatiquement, representee, codee par un nombre precis. Ainsi en general les lettres a, b, c, d sont codees en utilisant un petit nombre sur 1 seul octet et les chinois sur 2 ou plusieurs, selon les codifications. Donc le systeme graphique d'affichage interprete en se disant "j'utilise en ce moment telle codification donc, ca c'est un petit numero donc je cherche dans ma table une lettre europeennes, celui ci c'est un grand numero, donc je vais lire le nombre suivant et ce nombre + le suivant me donneront le nombre final pour savoir de quel caracere il s'agit".

Exemple, creons notre propre codification :
Si j'envoie le nombre 12 a l'ordinateur il affiche graphiquement la lettre A
13 - lettre B
45 l'etoile *
78 - lettre %
et aussi
1278 (nombre plus grand mais on a vu qu'il y a tellement de caracteres chinois que pour tous les identifier il faut des grands nombres ) represente le caractere chinois de la maison
1232 celui de la plume
7813 celui de l'eau
...

Si on envoie 45 12 78 13 comment sait il que c'est "* A % B" ou c'est "* maison B" ? ( ca ne veut rien dire mais nous prenons juste cet exemple pour montrer que l'on peut interpreter les sequences de nombres ). Reponse : aucun moyen de le savoir.
Cette codification n'est pas bonne car elle induit une ambiguite que l'on ne peut pas resoudre ( sauf a introduire de la semantique mais on n'en est pas la ). Donc par exemple une bonne codification precisera qu'il y a des lettres a un nombre et des lettres a 2 ou 3. Celles par 2 ou 3 commenceront par un premier que l'on ne retrouve pas dans ceux qui sont a 1 octet pour ne pas creer d'ambiguites. ( rappel de l'interet de coder a, b, c, d .. par 1 nombre car il n'y en a que 26 mais vu le nombre de caracteres chinois il faut des nombres plus grands qui ne tiennent que su au moins 2 octets, l'unite de base de stockage des ordinateurs )

Et la codification met aussi des plages en disant par exemple :
Si l'octet vaut de 0 a 128 alors il faut c'est une lettre codee sur 1 octet
Si l'octet vaut de 129 a 254 alors c'est le premier octet d'un caractere code sur 2 octets <donc lisez l'octet et le suivant>
Si l'octet vaut 255 ce sera le premier octet d'un caractere code sur 3 octets < donc prenez 255 et les 3 suivants et ca vous donnera le caractere>

Ainsi la sequence suivante d'octets ( chacun peut valoir entre 0 et 255 )
1-2-24-129-34-34-254-255-0-12-255-255-55-130-12 sera decoupee en

1-
2-
24-
129-34- Ici on utilise 2 octets pour coder 1 caractere - probablement chinois
34-
254-255-
0-
12-
255-255-55-130-
12

Ainsi cette sequence de 15 octets, selon cette codification represente en fait 10 signes ( lettres ou caracteres chinois )

La codification permet donc de :
* donner sens a une suite de nombres
* coder les lettres a, b, c, d... sur 1 seul octet ( 256 valeurs possibles )
* coder les chinoises sur 2 ou 3 octets ( de nomreuses valeurs posibles )

Des exemples de codifications ?
- L'ASCII donne un numero aux lettres d el'alphabet latin sur les PC.
- L'EBCDIC fait pareil mais sur les systeme IBM
- Big5 a ete invente a Taiwan et donne un numero pour une liste de caracteres traditionnels ( cette liste s'appelle aussi Big-5 ) En fait dans ce cas la norme et la codification ont le meme numero pour chaque caractere.
- GB pour les simplifies.
- UTF-8 pour representer la norme ISO-10646 ( aussi UNICODE )
- Les codes pages de Microsoft comme 950 qui est liee a la norme Big5
http://www.microsoft.com/globaldev/reference/dbcs/950.htm <-> Big5 PC Taiwan
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP950.TXT

- Norme / Codification. Comment une codification represente sur un ordinateur une norme ?
Note : Dans la suite du document faites regulierement une pause et confirmez si vous traitez d'une norme ou d'une codification.

Les normes sont en general faites par un organisme de normalisation. L'ISO, International Standard Organisation par exemple ne fait que ca.
Un des organismes de normalisation est l'ISO. Des gens ont cree UNICODE pour prendre cette norme et mettre un numero a chaque caractere et le decrire un peu plus. Ils apportent une plus value a la norme mais ne sont pas utiles.

La norme ISO/IEC 10646:2003 correspond a Unicode 4.0. UNICODE ne fait qu'une liste de caracteres. Aucun lien avec de l'informatique.
Pour etre sur des ordinateurs il faut par la suite dire que tel caractere selon la norme (nomenclature) UNICODE (par exemple ) sera represente par tel nombre sur un ordinateur.C'est le role des codifications. UTF-8 par exemple est simplement une table qui prend la liste UNICODE et associe un ou plusieurs octets a chacun. Les ordinateurs qui exploitent UTF-8 ont d'enregistres que s'ils recoivent cette serie d'octets ils doivent la considerer par tel ou tel caractere. ( cf le role par la suite de la police de caractere pour la representation graphique finale )

C'est a dire que UNICODE a fait une liste de milliers de caracteres ( un fichier papier dont le sous ensemble chinois s'appelle Unihan ) donnant a chacun un numero de 0 a xxxx. UTF-8 dit que pour tel numero UNICODE pour le stoquer sur un ordinateur on utilise un petit nombre de 0 a 127 par exemple pour les a, b, c... z et que si UNICODE represente un caractere chinois alors le nombre est de 128 a xxx et que le xxx est sur 2 octets. La codification UTF-8 precise sur combien de caracteres on represente tel caractere UNICODE. Cette codification UTF-8 est une qui essaie de mettre les a, b, c ... sur 1 seul octet et les chinois sur 2. Big5 en est une autre, GB ...

Dans des pages HTML vous pouvez vous passer des codifications et ecrire directement le numero de la norme UNICODE compose de 2 octets et est strictement egal a sa valeur dans UNICODE, c'est de l'UNICODE pur. Donc dans une page HTML si vous voyez des choses comme &#31166; vous savez que 31166 est le numero unicode du caractere. Ca prend toutefois plus de place a ecrire, 8 caracteres. Toutefois c'est la seule maniere de melanger sur une page, plusieurs types de caracteres.

Deux exemples de description UNICODE.

Voyez ci dessous, rien d'informatique. Simplement on associe un numero a 1 caractere et on decrit comment l'identifier.
Dans le dictionnaire KangXi il est a la page 848, dans le HanyuDaZidian il a le numero 42588 ...

Exemple &#31166; est le caractere du grain encore en pousse sur la tige. Sa definition est la suivante :
( oubliez pour l'instant le 79BE ci dessous qui est la representation hexadecimale de 31166 en decimal )
U+79BE kAlternateKangXi 0848.018
U+79BE kAlternateMorohashi 24906
U+79BE kBigFive A5DD
U+79BE kCCCII 214F23
U+79BE kCNS1986 1-467D
U+79BE kCNS1992 1-467D
U+79BE kCangjie HD
U+79BE kCantonese WO4
U+79BE kCihaiT 986.601
U+79BE kCowles 5060
U+79BE kDaeJaweon 1270.110
U+79BE kDefinition grain still on stalk; rice plant
U+79BE kEACC 214F23
U+79BE kFrequency 5
U+79BE kGB0 2644
U+79BE kGB1 2644
U+79BE kGradeLevel 1
U+79BE kHanYu 42588.010
U+79BE kIRGDaeJaweon 1270.110
U+79BE kIRGDaiKanwaZiten 24906
U+79BE kIRGHanyuDaZidian 42588.010
U+79BE kIRGKangXi 0848.180
U+79BE kIRG_GSource 0-3A4C
U+79BE kIRG_JSource 0-3253
U+79BE kIRG_KPSource KP0-F6B9
U+79BE kIRG_KSource 0-7C22
U+79BE kIRG_TSource 1-467D
U+79BE kJapaneseKun INE NOGI
U+79BE kJapaneseOn KA
U+79BE kJis0 1851
U+79BE kKPS0 F6B9
U+79BE kKSC0 9202
U+79BE kKangXi 0848.180
U+79BE kKarlgren 70
U+79BE kKorean HWA
U+79BE kLau 3243
U+79BE kMainlandTelegraph 4421
U+79BE kMandarin HE2
U+79BE kMatthews 2114
U+79BE kMorohashi 24906
U+79BE kPhonetic 1453
U+79BE kRSKangXi 115.0
U+79BE kRSUnicode 115.0
U+79BE kSBGY 163.46
U+79BE kTaiwanTelegraph 4421
U+79BE kTotalStrokes 5
U+79BE kXerox 261:362
U+79BE kGSR 0008a

Un autre exemple le caractere d'un met fait a partir de riz gluant.

U+7CED kCCCII 227028
U+7CED kCNS1986 E-6628
U+7CED kCNS1992 3-6628
U+7CED kCangjie FDUCE
U+7CED kDefinition rice dumpling
U+7CED kEACC 227028
U+7CED kHKSCS 995C
U+7CED kHanYu 53162.031
U+7CED kIRGHanyuDaZidian 53162.031
U+7CED kIRGKangXi 0913.341
U+7CED kIRG_GSource E-3779
U+7CED kIRG_HSource 995C
U+7CED kIRG_TSource 3-6628
U+7CED kKangXi 0913.341
U+7CED kMandarin ZONG4
U+7CED kMorohashi 99999
U+7CED kRSKangXi 119.13
U+7CED kRSUnicode 119.13
U+7CED kTotalStrokes 19
U+7CED kZVariant U+7CC9


Donc dans une page HTML si vous mettez

<FONT SIZE=6>&#31981;</FONT><FONT SIZE=2> Qui est fait a partir de riz gluant<br>
Vous aurez peut etre le caractere a l'ecran. ( maintenant peut etre que votre PC ne sait pas dessiner ce caractere precis )
Donc les sites sur unicode associent toujours une image, stockee chez eux pour etre sur d'afficher le caractere au cas ou la police de caractere de votre PC ne comprenne pas ce caractere.

Maintenant souvenez vous que les ordinateurs aiment bien utiliser 8 bits pour representer la donnee de base.
Ce qui donne 256 valeurs. 256 = deux nombres de 16 valeurs = 16 x 16 , le systeme Hexadecimal presente ci dessus.

Par exemple 31981 est en decimal. Si vous le mettez en hexadecimal vous aurez 7C ED (reprenez notre exemple ci dessus a la rubrique nombre )
La norme unicode a donne un numero a chaque caractere et vous pouvez y acceder en hexadecimal.

Exemple de notre caractere 31981
On le trouve la si la glyphe n'est pas bonne sur votre PC : <BR></FONT>
<A HREF="http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=7CED&amp;useutf8=false">

Autre methode, tapez ceci dans Internet Explorer :
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=79BE&amp;useutf8=false

Ce caractere identifie par les descriptions ci dessus et le nombre 31166 dans la norme unicode, est precisement codifie ainsi :
UTF-8 : E7 A6 BE
UTF-16: 79 BE
UTF-32 : 00 00 79 BE
Big5 :A5 DD
Voyez que selon les codifications il faut de 2 a 4 octets pour le representer.

En HTML pour dire a une page qu'elle est en utf-8 mettez au debut
<meta http-equiv="content-type" content="text/html;charset=utf-8">
Et, ainsi a l'interieur de la page si on a 禾, ces 3 caracteres ont en fait les valeurs E7 A6 BE mais selon la codification UTF-8 il
est dit que si on a E7 alors il faut considerer le paquet E7 A6 BE pour deriver le numero du caractere.
( C'est le meme caractere qui a le numero 31166 dans unicode )

C'est ce qui fait que vous avez parfois des caracteres etranges dans des pages en chinois si votre Explorer Internet n'est pas bien configure
ou des caracteres etranges si vous lisez une page francaise.

Imaginez que vraiment vous vouliez ecrire "禾" ( etrange mais bon juste pour expliquer )
Exemple :
Je vous presente le C cedille, la barre et le 3/4 trois quart que voici : 禾
Si vous ecrivez directement 禾 dans la page, encodee en utf-8 il va comprendre que c'est ce caractere chinois et affichera 1 caractere et non
pas les 3 que vous vouliez. Il faudra donc chercher comment est code le ç en utf8, puis le ¦ puis le ¾ et mettre leurs valeurs.

Dans d'autres NORMES il aura un autre numero
GB 2312 2644
GB 12345 2644
CNS 11643-1986 1-467D
...

- glyphe : c'est la representation graphique d'un meme caractere. Chaque caractere peut s'ecrire differament. Par exemple en arrondi, format manuscrit, format lettres d'imprimerie, minuscule, majuscule ... tout ceci se presente differament a l'ecran mais represente bien le meme caractere A A a a

- Police de caractere : ceci contient la representation graphique ( glyphe ) pour une codification et un ensemble de caracteres donnes.
Donc on trouvera une police de caractere qui selon la codification BIG5 va vous representer a l'ecran les caracteres en format Song ou je ne sais quoi.
On trouvera une police qui selon la codification utf-8 contirndra la representation graphique de 3000 caracteres
La ou le lien entre E7 A6 BE et sa representation graphique est fait. C'est donc une table avec en entree les valeurs des caracteres selon la codification et on y indique comment le dessiner.
Donc dan sune police le E7 A6 BE sera dessine d'une maniere, dans une autre d'une autre maniere.

UNICODE comprenant la definition de tres nombreux caracteres il semble normal de vouloir l'utiliser. Toutefois tous les logiciels ne sont pas prevus pour savoir exploiter la codification utf-8. Nombreux sont ceux qui ne savent utiliser que le Big5 ou le GB.

Un aspect est qu'il n'y a, a ce jour, aucune police de caractere qui contiendra tout unicode. De nombreuses contiennent un sous ensemble et s'il y a dans un document un caractere qui n'est pas dans la police, il ne peut pas etre affiche. Le logiciel le remplace en general par un carre. D'ou l'avantage du site web d'Unicode.org car vous pouvez avoir le caractere en fichier image qu'ils ont fait sur leur site web. L'image sera toujours affichee ( venant de leur site, mais la partie caractere locale au PC peut ou pas etre affichee selon la presence de ce caractere dans la police )
Exemple : http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=79BE&amp;useutf8=false
D'un cote l'image de l'autre votre representation sur votre PC selon la police utilisee.

Sur le site d'unicode vous pouvez avoir la version graphique, en image d'un caractere, donc independament de la police.
http://www.mandarintools.com/download/unigif.tgz en est un autre.

Vous avez des liens en anglais permettant de changer une codification, d'expliquer aussi.
http://www.chinesecomputing.com/
http://www.mandarintools.com/zhcode.html
http://www.mandarintools.com/zhcodeweb.html

J'ai lu qu'un fichier de fonte est utilisable sur Windows et UNIX de la meme maniere.


La saisie de caracteres :
- Utilisez une tablette telle que Crystal Touch / PenPower. Saississez le caractere sur la tablette avec le stylet et il apparait a l'ecran.
http://www.chinesesoftware.com/d_business_index.html#Handwriting%20Input
- l'IME de Microsoft permet de taper le pinyin du caractere et il apparait a l'ecran
- D'autres methodes phonetiques ou par les cles. Zhuyin Fuhao / Bopomofo de 37 symboles pour le Mandarin
- Penkyamp ou le pinyin cantonais ( Yale: ping1 yam1 et le Jyutping : ping1 jam1 invente par la societe linguistique de Hong Kong )
- Wubizixing,
- Cangjie invente en 1979 par Chu Bang Fu ( dans le Penpower par exemple ),
- Wubi Hua ,
- http://www.njstar.com/njpen/
- Meyer-Wempe
- Wubi / Wubizixing ( pinyin wu3 bi3 zi4 xing2)
- Shouwei
- Zheng code
- Dayi
- Wubi Hua, 5 traits ( Five Stroke method )
- 4 coins
- par traits
- Tze-loi
- Renzhi code method
...

Affichage :
- Dans Internet explorer vous pouvez regarder le code de la page HTML :
Menu principal / View / Source.
Dedans cherchez des tags comme "content"

<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
Si vous avez utf-8 c'est de l'unicode. Big5 c'est du big5 ... Allez alors dans Menu / View / Encoding et selectionnez la codification associee.

- Dans les autres logiciels vous devez installer un logiciel special comme TextBridge, Chinese Star, RichWin qui se chargeront d'afficher dans Word, Notepad ...
et au lieu de 禾 vous aurez le vrai caractere.Notez : Il faut souvent telecharger des polices de caractere. Des mots cles sont

Polices de caracteres : Code2000, Arial Unicode MS

http://www.alltheweb.com/search?cat=ftp&ftype=4&query=bsmi00lp.ttf.gz
http://www.cantonese.sheik.co.uk/fonts/bkai00mp.ttf.zip
http://www.microsoft.com/hk/hkscs
http://www.jys.js.cn/grkj/fonts/index.htm
http://cgm.cs.mcgill.ca/~luc/china.html
http://www.alltheweb.com/search?cat=ftp&cs=iso-8859-1&ftype=4&q=pingliu.ttf
http://www.chinesecomputing.com/
http://tsunami.anime.net/~tharuka/fonts/

Les installer a partir du paneau de configuration / polices. Et, dans Internet Explorer il faut lui dire d'associer le chinois a cette police. Outils / Options Internet / Polices et faire le lien.

Faites pour les deux, le traditionnel et pour le simplifie. Vous pouvez specifier une police differente.

Pour plein de logiciels http://www.chinesesoftware.com/d_business_index.html

Exemples une petite page HTML serait codee ainsi :
Les numeros avec &# sont les codes UNICODE.
Et dans le navigateur Internet la page est en charset=windows-1252" par exemple

Mais a l'interieur vous changerez pour une police de caractere UNICODE ( qui doit etre sur le PC )
<font face="Arial Unicode MS">

Exemple de page HTML ( copier ce code, mettez le dans un nouveau document texte
et changez l'extention en .html et double cliquez dessus )

<font face="Arial Unicode MS">

<html>

<head>
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<title>UNICODE pour afficher du simplifie et du tradi</title>
</head>

<p><a name="liste"></a>Chinois simplifie, Chinois traditionnel
</p>

<p align="center">
<font size="5"><b><font color="#FF0000">
&#22269; &#22283;<br>
&#36825; &#36889;<br>
&#20010; &#20491;<br>
&#20204; &#20497;<br>

</font>
</p>

- Si on met les &#20154; ( code UNICODE ) alors windows va chercher le caractere tout seul.
Notez : On peut laisser dans l'entete de la page une definition comme charset=windows-1252"

PRATIQUE
-Liste des cles http://deesse.univ-lemans.fr/~prevost/chinois/ecriture/keys/index.html
-Tester si le navigateur affiche l'unicode http://www.sungwh.freeserve.co.uk/hanzi/t-s-test.htm
- comment faire pour "traduire" un document Big5 en UNICODE / GB
http://site.voila.fr/fllcjvg/unicode.htm


Des ressources en anglais :
De tres bonnes definitions a partir de
http://encyclopedia.thefreedictionary.com/Chinese%20character%20encoding
http://en.wikipedia.org/wiki/Chinese_character_encoding

ISO/IEC 10646. also known as the Universal Character Set, or UCS. Version 3.0 of the Unicode Standard is code-for-code identical to ISO/IEC
10646-1:2000. UTF-8 and UTF-16 are defined in Annexes to ISO/IEC 10646-1:2000. And UTF-32 corresponds to the four-octet form UCS-4 of 10646
Encoding Forms http://www.unicode.org/standard/principles.html#Encoding_Forms
Character encoding standards define not only the identity of each character and its numeric value, or code point, but also how this value is
represented in bits.
The Unicode Standard defines three encoding forms that allow the same data to be transmitted in a byte, word or double word oriented format (i.e. in
8, 16 or 32-bits per code unit). All three encoding forms encode the same common character repertoire and can be efficiently transformed into one
another without loss of data. The Unicode Consortium fully endorses the use of any of these encoding forms as a conformant way of implementing the
Unicode Standard.
UCS Transformation Format, 8 bits
UTF-8 is popular for HTML and similar protocols. UTF-8 is a way of transforming all Unicode characters into a variable length encoding of bytes. It
has the advantages that the Unicode characters corresponding to the familiar ASCII set have the same byte values as ASCII, and that Unicode characters
transformed into UTF-8 can be used with much existing software without extensive software rewrites.
UTF-16 is popular in many environments that need to balance efficient access to characters with economical use of storage. It is reasonably compact
and all the heavily used characters fit into a single 16-bit code unit, while all other characters are accessible via pairs of 16-bit code units.
UTF-32 is popular where memory space is no concern, but fixed width, single code unit access to characters is desired. Each Unicode character is
encoded in a single 32-bit code unit when using UTF-32.
All three encoding forms need at most 4 bytes (or 32-bits) of data for each character.

HKSCS http://www.info.gov.hk/digital21/eng/hkscs/introduction.html

http://www.unicode.org/charts/unihan.html


&#30340; - &#x7684; - %AA%BA - ao http://www.unicode.org/iuc/iuc18/a014.html
http://www.unicode.org/iuc/iuc18/papers.html

Definitions
ISO/IEC 10646 is only for chinese. Unicode is for lots of languages.
.

Big-5 and the ISO 10646
http://en.wikipedia.org/wiki/Chinese_character_encoding
http://encyclopedia.thefreedictionary.com/Chinese%20character%20encoding
The original Big5 character set is sorted first by usage frequency, second by stroke count, lastly by KangXi Radicals.
The original Big5 character set missed many commonly used characters.
To solve this problem, each vendor developed its own extension.
The ETen extension became part of the current Big5 standard through popularity.
According to some accounts, the Big5 encoding was popularized by its adoption in several commercial software packages,
especially the ET chinese system which ran on MS-DOS.
The Republic of China government declared it their standard in mid-1980s since Big5 was already the de facto standard by that time.
Hong Kong also adopted Big5 for character encoding. However, Cantonese uses many archaic Chinese characters
that were not available in the normal Big5 character set. To solve this problem, the Hong Kong Government created the
Big5 extensions "Government Chinese Character Set" in 1995 and Hong Kong Supplementary Character Set in 1999.
The Hong Kong extensions are commonly distributed as a patch.

The total number of ideographic characters contained in the ISO 10646 standard to exceed 70,000.
All the characters in the Kangxi Dictionary, Han Yu Da Zi Dian and Han Yu Da Ci Dian
The ISO released the first version of the ISO 10646 standard in 1993. It was called ISO/IEC 10646-1:1993. In 2000, the ISO released ISO/IEC
10646-1:2000, which is an updated version of ISO/IEC 10646-1:1993. ISO/IEC 10646-1:2000 contains 27,484 ideographic characters consisting of the
20,902 ideographic characters of ISO/IEC 10646-1:1993 plus 6,582 newly defined ideographic characters in the Extension A. In November 2001, the ISO
released ISO/IEC 10646-2:2001 as a supplement to ISO/IEC 10646-1:2000. ISO/IEC 10646-2:2001 contains 42,711 newly defined ideographic characters in
the Extension B, bringing the total number of ideographic characters contained in the ISO 10646 standard to exceed 70,000. All the characters in the
Kangxi Dictionary, Han Yu Da Zi Dian and Han Yu Da Ci Dian are now included in the ISO 10646 standard. In April 2004, ISO published the ISO/IEC
10646:2003, which is a single publication as the result of the merger of the previous two releases of ISO 10646 standard: ISO/IEC 10646-1:2000 and its
supplement ISO/IEC 10646-2:2001. Therefore, the ideographic characters in the ISO/IEC 10646:2003 standard are the same as those in ISO/IEC
10646-1:2000 cum ISO/IEC 10646-2:2001.

http://www.iso.org/ chercher 10646 "standard"

Ideographic characters refer to those characters with appearance related to the meaning of the characters, such as the Han characters. Inclusion of
ideographic characters into the ISO 10646 standard is carried out in three phases: i.e. Extension A, Extension B and Extension C. The Extension A and
Extension B were released as part of ISO/IEC 10646-1:2000 and ISO/IEC 10646-2:2001 respectively. The work plan for the Extension C will be determined
later by ISO.

The development of the ISO 10646 standard and the Unicode standard is kept synchronized by the ISO and the Unicode Consortium. Information on the
characters included in the ISO 10646 standard / the Unicode standard is available on the web site of the Unicode Consortium at
http://www.unicode.org/charts/.
-> UNICODE a respecte ces phases et dans http://www.unicode.org/charts/ on les repere.
CJK Unified Ideographs (5MB)
CJK Unified Ideographs Extension A (1.5MB)
CJK Unified Ideographs Extension B (13MB)

GB 18030-2000 = Characters included in ISO/IEC 10646-1:2000 but internal code point assignment different from the ISO 10646 standard

http://www.chinesecomputing.com/
http://www.chinesecomputing.com/encodings/big5.html

http://www.mandarintools.com/contact.html
http://www.borgendale.com/codepage/j2conv.htm

http://www.microsoft.com/globaldev/reference/dbcs/950.htm <-> Big5
PC Taiwan
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP950.TXT
0xAABA 0x7684 #CJK UNIFIED IDEOGRAPH

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP936.TXT <-> GB
937 : EBCDIC Taiwan DBCS

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP949.TXT Korean

http://www.ietf.org/rfc/rfc1922.txt

GB (short for "Guojia Biaozhun" or "National Standard")

charset determination : http://www.i18nfaq.com/chardet.html


# Name: Unihan database
# Unicode version: 4.0.1
# Table version: 1.1
# Date: 29 January 2004

[...]

# kCantonese
# The Cantonese pronunciation(s) for this character
# The romanization used is a modified version of the Yale
romanization,
# modified as follows:
# (1) No effort is made to distinguish between Yale's "high
level" and
# "high falling" tones, which are not universally reflected
in all
# Cantonese romanizations and which appear to be no longer
# distinctive in Hong Kong Cantonese. As a general rule,
syllables
# which end with a stop (p, t, or k) have the "high level"
tone;
# but there are numerous exceptions.
# (2) Digits 1-6 are used to indicate the tones --
# 1 == High level/high falling
# 2 == High rising
# 3 == Middle level
# 4 == Low falling
# 5 == Low rising
# 6 == Low level
# (3) Accordingly, the letter "H" is *not* used as a tone indicator
# Cantonese pronunciations are sorted alphabetically, not in order of
# frequency
# N.B., the Hong Kong dialect of Cantonese is in the process of dropping
# initial NG- before non-null finals. Any word with an initial NG-
# may actually be pronounced without it, depending on the speaker
# and circumstances. Many words with a null initial may similarly
# be pronounced with an initial NG-. Similarly, many speakers use
# an initial L- for words previously pronounced with an initial N-.
# Cantonese data are derived from the following sources:
# Cheung Kwan-hin and Robert S. Bauer, _The Representation of
# Cantonese with Chinese Characters_, _Journal of Chinese
# Linguistics_ Monograph Series Number 18, 2002
# Roy T. Cowles, _A Pocket Dictionary of Cantonese_, Hong Kong:
# University Press, 1999
# Sidney Lau, _A Practical Cantonese-English Dictionary_, Hong Kong:
# Government Printer, 1977
# Bernard F. Meyer and Theodore F. Wempe, _Student's Cantonese-English
# Dictionary_, Maryknowll, New York: Catholic Foreign Mission Society
# of America, 1947
# e¢D'c¡±?a??, ed. a?¢Ga¡P?e?3a-?a?¡M, Hong Kong: Joint Publishing (H.K.)
# Co., Ltd., 1989
# a¡M-e?¡Âa?¢Xa-?a?¡M, Hong Kong:a¡M-e?¡Âa'¡Ma¡Ó?, 1987
# e??a¡M¡Âc"?, ed. a??a'?a?¢Xec?a?¡M, Hong Kong: The Commercial Press, 1991
# a??a??a??c¡¦?a¡M-a??ec?a?¡M, Hong Kong: Longman, 2001
# kLau
# The index of this character in _A Practical Cantonese-English Dictionary_
# by Sidney Lau, Hong Kong: The Government Printer, 1977.
# The index consists of an integer. Missing indices indicate unencoded
# characters which are being submitted to the IRG for inclusion in
# future versions of the standard.

U+34B7 kCantonese HING2 HING3
U+34B7 kDefinition (simple form of e??) to prosper, to begin, to increase; to rise; to raise, flourishing
U+34B7 kHanYu 10244.030
U+34B7 kIRGHanyuDaZidian 10244.030
U+34B7 kIRGKangXi 0127.171
U+34B7 kIRG_GSource HZ
U+34B7 kIRG_TSource 3-2456
U+34B7 kIRG_VSource 2-6E7B
U+34B7 kLau 1182 1183
U+34B7 kMandarin GUA3 XING4 XU3
U+34B7 kMatthews 2753
U+34B7 kPhonetic 475
U+34B7 kRSUnicode 12.5
U+34B7 kSemanticVariant U+8208
U+34B7 kTotalStrokes 7

U+3474 kCantonese CHAAM1 CHAM1
U+3474 kCihaiT 121.506
U+3474 kDefinition (standard form of a?£g) to usurp, to encroach upon,to raid
U+3474 kHanYu 10206.100
U+3474 kIRGHanyuDaZidian 10206.100
U+3474 kIRGKangXi 0112.120
U+3474 kIRG_GSource 5-3260
U+3474 kIRG_KPSource KP1-3651
U+3474 kIRG_TSource 3-3973
U+3474 kKPS1 3651
U+3474 kRSUnicode 9.10
U+3474 kTotalStrokes 12

http://humanum.arts.cuhk.edu.hk/Lexis/lexi-can/

http://www.chinalanguage.com/CCDICT/index.html - et


-------------------------

Voila, le point a ete fait.
 
Au passage, des dictionnaires
Dictionnaire non pas interactif mais sous forme de fichier de texte (liste de mots) que l'on peut telecharger et manipuler, comme par exemple ftp://ftp.cc.monash.edu.au/pub/nihongo/cedictgb.zip et ftp://ftp.cc.monash.edu.au/pub/nihongo/cedictb5.zip (versions GB et BIG5 respectivement) pour CEDICT (Chinese-English) ou encore ftp://ftp.cc.monash.edu.au/pub/nihongo/NJSTAR.zip pour le dictionaire NJSTAR dont chaque entree est sous la forme d'une ligne de texte au format : hanzi [pinyin] /traduction/
Ceux du site http://www.ramou.net


2. SYSTEME UNIX
( a developper )
http://www.math.jussieu.fr/~zoonek/LaTeX/Fontes/fontes.html
http://sunsite.unc.edu/LDP/HOWTO/Chinese-HOWTO.html   (English version)
http://www.debian.org/Packages/frozen/x11/ttf-arphic-bsmi00lp.html

3. Pour en savoir plus

http://www.sinoptic.ch/internet_cadres.htm

Bon document en Francais sur les differents types de fontes.
http://www.math.jussieu.fr/~zoonek/LaTeX/Fontes/fontes.html

Un gros centre de liens : http://jeff.cs.mcgill.ca/~luc/china.html

newsgroups : comp.std.internat,comp.software.international

fontes pinyin : http://www.acs.ucalgary.ca/~chud/font/pinyinfont.html

http://www.mandarintools.com/

SYSTEME MAC

Pour tout ce qui est des problèmes du chinois sur Mac je vous conseille vivement d'aller faire un tour sur le site Chinese Mac o?vous trouverez probablement votre bonheur : d'autres techniques et logiciels de frappe du chinois, des dictionnaires, des utilitaires, des traitements de textes, pour la plupart gratuits ou très peu chers et de nombreuses explications sur l'installation et l'utilisation du chinois sous différents OS : http://www.yale.edu/chinesemac/