Lundi 8 octobre 2007 de 9h30 à 17h à l’Institut Henri-Poincaré, 11 rue Pierre-et-Marie-Curie, 75005 Paris.
Cette journée GUTenberg est centrée sur le thème Unicode et TeX et s’adresse plus particulièrement aux utilisateurs de LaTeX qui désirent savoir comment concrètement utiliser aujourd’hui Unicode et quels sont les produits qui, dans un futur très proche, proposeront une approche intégrée d’Unicode dans TeX.
Organisation de la journée
Horaire | Sujet | |
---|---|---|
9h30-10h00 | Accueil — inscriptions | |
10h00-11h00 | 1a | Tutoriel Unicode — Codages et Unicode (Patrick Andries) |
11h00-11h30 | Pause café ; posters et démos : MlBibTeX et LXir | |
11h30-12h30 | 1b | Tutoriel Unicode — Unicode et les fontes (Patrick Andries) |
12h30-13h30 | Déjeuner pris sur place (compris dans les droits d’inscription) | |
13h30-14h00 | Assemblée générale statutaire de l’association GUTenberg | |
14h00-15h00 | 2 | Unicode et LaTeX dès aujourd’hui |
2a | UTF-8 & LaTeX (codages d’entrée : aspects pratiques) (Daniel Flipo) | |
2b | Étude de cas : LaTeX et OpenType (Gilles Pérez-Lambert) | |
15h00-15h45 | 3 | Unicode, OpenType et XeTeX (Michel Goossens) |
15h45-16h15 | Pause café ; posters et démos : MlBibTeX et LXir | |
16h15-17h00 | 4 | Unicode et LuaTeX (Fabrice Popineau) |
Programme scientifique détaillé
1. Tutoriel Unicode (Patrick Andries)
Après un rappel sur les codages historiques et la nécessité d’Unicode, on présente Unicode. On insiste sur les concepts de diacritique, de combinatoire, de normalisation et d’ordre canonique et sur leurs implications dans les modèles de caractères codés (caractères abstraits, UTF-8, UTF-16). On introduit aussi brièvement les propriétés Unicode et plus particulièrement celles liées à la coupure de ligne.On montre, par ailleurs, la façon dont Unicode est traité dans les principaux langages structurés (HTML, XML, CSS, etc.) et comment ils interagissent dans l’algorithme « bidi » d’écriture gauche-à-droite ou droite-à-gauche.
Dans une seconde partie, on présente deux mondes antagonistes, celui des caractères Unicode et celui des glyphes des fontes (les polices dites de caractères). On présente alors OpenType dont on montre les principales tables et leur rôle dans le traitement des caractères d’Unicode.
Patrick Andries est conseiller principal dans une société spécialisée dans la publication et la gestion documentaire. Depuis 12 ans, il s’intéresse au domaine de l’internationalisation et plus particulièrement à Unicode. Il est un des pionniers de l’internationalisation d’Internet. Il est un membre actif de divers organismes de normalisation. Conférencier chevronné, il a présenté de nombreuses conférences et ateliers sur des thèmes reliés à Unicode et à l’internationalisation. Il a joué, récemment, un rôle-clé dans la normalisation du tifinagh, le système d’écriture employé pour le berbère et le touareg. Voir le site de P. Andries.
2. Unicode et LaTeX dès aujourd’hui
Il s’agit de deux exposés « pour les nuls » destinés à répondre aux questions du type « j’ai reçu un texte français en UTF-8, comment le convertir en Latin-1 ou l’utiliser avec LaTeX standard ? », ou bien « Comment avoir les ligatures ct et st avec une fonte OpenType via LaTeX ? ».
2.a Codages d’entrée : aspects pratiques (Daniel Flipo)
On présente les possibilités offertes (dont l’extension ucs) pour compiler, dès aujourd’hui, en (pdf)LaTeX des textes codés en UTF-8, ainsi que divers outils offrant des conversions de ou vers Unicode (comme recode ou iconv).
Daniel Flipo est maître de conférences à l’université de Lille I et auteur de diverses extensions LaTeX. Voir le site de D. Flipo.
2.b Une étude de cas (Gilles Pérez-Lambert)
– Version rêve : on vient de vous offrir la fonte de vos rêves à votre anniversaire... Comment faire pour l’utiliser rapidement avec la version actuelle de TeX que vous utilisez ?
– Version cauchemar : comment faire pour utiliser la police OpenType que nécessite absolument ce boulot de mise en pages ? Ce boulot doit être fait pour hier, bien sûr...
Il s’agit d’une étude de cas de l’ensemble lcdf-typetools (disponible sur Linux, Mac et Windows) qui démontrera pas à pas comment produire, à partir d’une police OpenType CFF, l’ensemble des fichiers nécessaires à une installation TeX standard (LaTeX principalement mais pas uniquement) pour que ladite police fonctionne sans problème.
Gilles Pérez-Lambert est typographe aux Presses universitaires de la Méditerranée (à Montpellier) où la quasi-totalité des ouvrages (sciences humaines et sociales) sont produits avec LaTeX et ConTeXt, avec des très nombreuses fontes et dans de nombreuses langues.
3. Unicode, OpenType et XeTeX (Michel Goossens)
XeTeX utilise directement les polices OpenType présentes sur le système d’exploitation (Unix, Windows, Mac OS 10), sans passer par des fichiers TeX spécifiques (.tfm, etc.). Pour composer ses paragraphes XeTeX lit les informations requises pour placer les glyphes dans les fichiers des polices et délègue les transformations typographiques et linguistiques à un moteur de mis en page (ATSUI, ICU ou Graphite). XeTeX permet de composer plus simplement les textes dans les différentes langues du monde, basées sur l’alphabet latin ayant des signes diacritiques complexes comme le vietnamien, utilisant d’autres alphabets, comme l’arabe et les langues indiennes, ou des idéogrammes, comme le chinois.
Michel Goossens est responsable pour le traitement de textes scientifiques au CERN, le laboratoire européen pour la physique des particules à Genève en Suisse. Il est un des auteurs du LaTeX Companion (deuxième édition, 2004), du LaTeX Graphics Companion deuxième édition, 2007) et du LaTeX Web Companion (1999). Il a été président des groupes d’utilisateurs de TeX TUG et GUTenberg. Ayant réalisé l’importance d’une bonne documentation il est impliqué dans LaTeX depuis une vingtaine d’années. En parallèle il a suivi de près le développement d’autres langages de balisage et était parmi les premiers utilisateurs de SGML, HTML (inventé au CERN) et, plus récemment, XML. .
4. Unicode et LuaTeX (Fabrice Popineau)
luatex est probablement le développement de TeX le plus important depuis pdftex. Peu de projets visant à étendre TeX ont été courronés de succès. La plupart ont soit avorté (Omega) ou bien n’ont pas donné les résultats escomptés (NTS). En revanche, pdftex est un exemple d’une belle réussite sans laquelle TeX n’aurait certainement pas vécu aussi longtemps. L’objet du projet luatex est de fournir de nouvelles possibilités en terme de programmation de TeX, en particulier permettre l’accès aux structures internes de TeX. Le projet vise également à prendre en compte Unicode comme le fait Omega, ainsi que de travailler directement avec les polices OpenType comme le fait xetex. Mais il y a d’autres surprises dans les cartons.
L’objet de cette présentation sera dans un premier temps de replacer le développement de luatex dans son contexte et de présenter la feuille de route, car le développement de luatex est balisé par l’intégration où l’adjonction des fonctionnalités ci-dessus. Dans un second temps, nous nous intéresserons à un certain nombre d’exemples qui sont déjà opérationnels pour montrer l’intérêt concrêt du projet.
Fabrice Popineau est professeur à Supélec (École Supérieure d’Électricité), responsable de l’option Informatique et Ingénierie de la Connaissance sur le campus de Metz. Il a contribué pendant de nombreuses années au projet TeXLive, sur la version pour Windows. Il héberge également sur des serveurs de son campus le projet luatex qu’il suit de près.
Posters et démos
Durant les pauses, des auteurs de logiciels liés à LaTeX ou à Unicode afficheront des panneaux présentant leur travail, ou ferons des démonstrations.
Deux démonstrations ou posters sont prévus :
– MlBibTeX et Unicode, par J.M. Hufflen. En complément à cette journée sur Unicode, norme multilingue par excellence, rappelons que l’ordre adopté par les dictionnaires dépend des langues. L’ordre des lettres n’est pas toujours le même, le traitement des accents non plus. Enfin, quelques groupes de lettres peuvent être vus comme une lettre unique (p.ex., "sz" et "dzs" et hongrois). Tout ceci est pris en compte par les fonctions que démontre J.-M. Hufflen. Ces fonctions sont intégrées à MlBibTeX, une ré-implémentation de BibTeX qui en accroit les possibilités. Une démonstration complte de l’ensemble est aussi possible.
– LXir : nouvel outil de conversion LaTeX vers XML/MathML, par EDP-Sciences. Cyberthèses (Université Lumière Lyon 2) a mis au point une chaîne de traitement originale et complète qui assure la conversion des thèses fournies par les docteurs vers des fichiers HTML, XML et PDF pour leur diffusion sur le Web. Dans le cadre de ce projet EDP Sciences (éditeur scientifique dont la chaîne de production est basée sur LaTeX) a travaillé sur l’outil de conversion des documents LaTex en XML. Ce nouvel outil « LXir » a été développé par EDP Sciences dans le cadre d’une licence libre.