Plan des 4 prochains cours

Principes du typage statique
Types de données

Partie: I
Les principes du typage

Plan

Introduction au typage
Quelques exemples
Notations
Le typage de CAML
Modularité
traits impératifs
L'unification

Introduction I

Le typage

Diviser l'espace des valeurs en collections: un type est une collection de valeurs partageant une même propriété

Les types sont toujours plus ou moins vérifiés:

soit à l'exécution (typage dynamique)
soit à la compilation (typage statique)

Intérêts du typage statique

détection précoce d'erreurs
documentation, structuration (une première information sur le programme)
facilite les optimisations (enregistrements, accès, représentations,...)
élimination de certaines erreurs d'exécution
sécurité du code

Introduction II

Remarque

le typage dynamique est plus précis (if B then 1 else 2+"a", avec B = vrai)
le typage statique doit être conservatif
trouver des systèmes de type les plus riches possible

On étudie ici les principes du typage statique

Qu'est qu'un type?

Un type est une expression d'un langage de types
Déclarer un type = introduire un nom de type
Définir un type = associer un nom à une exp. de type

Typer une expression

Typer = associer un type à une expression
Typage fort = toute expression a un type et un seul

Introduction III

Vérification des types

le programmeur associe un type à chaque déclaration d'identificateur et le compilateur vérifie la correction (e.g, C, C++, Pascal, Ada,...)

int addition (int x1, int x2)
{  int temp;
   temp = x1 + x2;
   return(temp); }

Synthèse des types

les types sont devinés (on dira synthétisés ou inférés) par le compilateur par une analyse des contraintes d'utilisation des variables (e.g, Caml, SML,...)

#let addition x1 x2 =
   let temp = x1 + x2 in
   temp;;
addition : int -> int -> int = <fun>

Introduction IV

``le programme P est de type ty''

P : ty

Vérification

vérifier que ty est un type valide pour P

Synthèse

trouver un ty valide

Intérêts de la synthèse

concision, simplicité, facilité d'écriture
généralité plus grande des programmes
Un algorithme fondamental de l'informatique (IA)

Quelques exemples I

Typer une expression:

parcourir l'expression en associant un type unique à chaque sous-expression

Exemple:

2 + (4 * 5)

2:int

4:int 5:int

4*5:int

2+(4*5):int

Un axiome:

i : int

Une règle de déduction:

e₁ : int e₂ : int

e₁ + e₂ : int

Quelques exemples II

des axiomes:
P:ty
des règles d'inférence

P₁:ty₁ P_n:ty_n

C(P₁,...,P_n):ty
typer = construire un arbre où les feuilles sont des axiomes et les noeuds, des règles d'inférence

·
·
·

P₁:ty₁

·
·
·

P_n:ty_n

C(P₁,...,P_n):ty

Quelques exemples III

Un programme est bien typé lorsque l'on peut construire une telle déduction

Typer:

2 + (true * 5)

2:int

true:bool 5:int

true*5:?

2+(true * 5):?

Question:

Que faire en présence d'identificateurs?

#let x = 1;;
x : int = 1
#let y = 2 + (4 * x);;
y : int = 6

On introduit l'environnement de typage.

contient des liaisons (idf,type)
ë (y:int)(x:int) û =

Notations, définitions I

``Dans l'environnement , le programme P a le type ty''

|- P:ty

L'environnement de typage

liste d'association ë (x₁:ty₁),...,(x_n:ty_n) û
une fonction d'accès acces tq:

acces (x,ë (x₁:ty₁),...,(x_n:ty_n) û)

= ì
í
î

ty₁ si x = x₁

acces (x,ë (x₂:ty₂),...,(x_n:ty_n) û) sinon

Notre langage des types

Types de base: unit, int, float, char, string,...
Types construits
- types constants déclarés
- constructeur de type (opérateur sur les types). e.g, *
- types paramétrés, e.g, ('a,'b) arbre
Variables de type :a, b,... notés 'a,'b,...

Le typage de CAML I

Constantes

|- true : bool

|- false : bool

|- 42 : int

Identificateurs

(Ident)

acces (x,) = ty

|- x : ty

Conditionnelle

if cond then e1 else e2

(Cond)

|- cond : bool |- e1 : ty |- e2 : ty

|- if cond then e1 else e2 : ty

Le typage de CAML II

Application de fonction

Soient e₁ une expression (fonctionnelle) et e₂ une expression. L'application e₁ e₂ est typée avec la règle :

(App)

|- e₁ : t₁ ® t₂ |- e₂ : t₁

|- e₁ e₂ : t₂

Exemples:

fact (fact 5)

2 + (4 * 5)

Remarque:

-> est associatif à droite
(t₁ -> t₂ -> t₃ = t₁ -> (t₂ -> t₃))
l'application est associative à gauche e₁ e₂ e₃ = (e₁ e₂) e₃

Le typage de CAML III

Fonctions: function x -> corps

Typage dans

Choisir une nouvelle variable de type, t, pour désigner le type de x. t est donc une inconnue.
Typer corps dans ë (x,t) <| û. Fait apparaître des contraintes de typage (t = t₁).
Faire le bilan des contraintes :
1. contraintes contradictoires : erreur de typage.
2. variables de type toutes déterminées:
  si x : t₁ et si corps: t₂, alors
  function x -> corps: t₁ ® t₂
3. certaines variables de type restent indéterminées: polymorphisme (plus tard)

(Fun)

ë (x:t₁) <| û |- corps : t₂

|- function x -> corps : t₁ ® t₂

Le typage de CAML IV

Déclarations globales

let idf = exp;;

#let x = 1;;
x : int = 1
#let y = x+x;;
y : int = 2
#let y = y+2;;
y : int = 4

Typage dans l'env. global courant
typage de exp
|- exp : ty
le nouvel environnement global ' = ë (idf:ty) <| û

Le typage de CAML V

Déclarations locales

let idf = exp1 in exp2;;

#let z = 1 in z+2;;
- : int = 3
#let y = z+1;;
Entrée interactive:
>let y = z+1;;
> ^
L'identificateur z n'est pas défini.

Typage de exp1 ( |- exp1 : ty₁)
Ajout du type obtenu à l'environnement _loc = ë (idf:ty₁) <| û
Typage de exp2 dans _loc (' |- exp2 : ty₂)
L'environnement global est inchangé

(Let)

|- exp₁ : t₁ ë (idf:t₁) <| û |- exp₂ : t₂

|- let idf = exp₁ in exp₂ : t₂

Le typage de CAML VI

Fonctions récursives

une fonction récursive est une expression fonctionnelle déclarée par let rec.

let rec f = function x -> corps

#let rec fact1 = function n ->
     if n <= 0 then 1 
     else n * fact1 (n-1);;
fact1 : int -> int = <fun>

Typage dans

Choisir deux nouvelles variables de type t₁ et t₂ pour désigner le type de f puis étendre ' = ë (f:t₁ ® t₂), (x:t₁)<| û
typer corps (' |- corps : ty₂)
Faire le bilan des contraintes (t₁ = t₁ et t₂ = t₂)

(Rec)

ë (f:t₁ ® t₂), (x:t₁)<| û |- corps : t₂

|- rec f = function x -> corps : t₁ ® t₂

Le typage de CAML VII

Polymorphisme

Lors du typage, certaines variables de type restent indéterminées. Le programme est très général !

#let app_tab f t =
   for i = 0 to vect_length t - 1 do
     t.(i) <- f (t.(i))
   done;;
app_tab : ('a -> 'a) -> 'a vect -> unit = 
<fun>
#let ajout n t = 
   app_tab (function x -> x+n) t;;
ajout : int -> int vect -> unit = <fun>
#let not_tab t = 
   app_tab (function x -> not x) t;;
not_tab : bool vect -> unit = <fun>

Intérêt du polymorphisme

généralité du code, concision
réutilisabilité (bibliothèques)

Le typage de CAML VIII

Les variables de type non déterminées sont généralisées.

|- function x -> x : " a.a ® a

Schéma de type:

expression de type dont certaines variables, notées 'a, sont quantifiées universellement en tête de l'expression: " a. a ® a. Les variables non quantifiées, notées _'a, sont dites libres.

Type:

expression de type sans quantificateur.

Type monomorphe:

type ne contenant pas de variable de type

Type polymorphe:

schéma de type

Instancier un schéma de type:

remplacer les variables universellement quantifiées par une expression de type.

Généraliser un type dans :

quantifier universellement les variables du type qui ne sont pas libres dans .

Le typage de CAML IX

Typage d'une expression ne contenant que des identificateurs connus

Cas monomorphe: déjà vu.

Cas polymorphe: " a₁ ... a_n.typ
instancier chaque a_i par une nouvelle variable de type t_i.

On modifie la règle de typage des variables.

(Instance)

instancier (acces (x,)) = ty

|- x : ty

avec:

instancier (" a₁,...,a_n.t) = t[t₁/a₁,...,t_n/a_n]

Donc, maintenant, l'environnement est une liste d'association (idf, schéma de type).

Le typage de CAML X

Exemple

#let id = function x -> x;;
id : 'a -> 'a = <fun>
#id true,id 1;;
- : bool * int = true, 1

|- id : " a.a ® a

|- id : int ® int

|- true : bool

|- id true : bool

#(function f -> f true,f 1) (function x -> x);;
Entrée interactive:
>(function f -> f true,f 1) (function x -> 
x);;
> ^
Cette expression est de type int,
mais est utilisée avec le type bool.

Le typage de CAML XI

Quand et comment généraliser ?

au moment des déclarations

let idf = exp1 in exp2

On modifie donc un peu la règle de typage des déclarations.

Expression expansive:

effectuant des effets de bord pouvant invalider le typage. En CAML, expressions de la forme e₁ e₂.

|- exp1 : t₁
Si exp1 NON expansive, généraliser t₁ en st₁ = generaliser(t₁), sinon st₁ = t₁
Ajout du type obtenu à l'environnement
ë (x:st₁) <| û |- exp2 : ty₂
L'environnement global est inchangé

|- exp₁ : t₁ ë (idf:st₁) <| û |- exp₂ : t₂

|- let idf = exp₁ in exp₂ : t₂

Le typage de CAML XII

La généralisation

generaliser

(typ) = " t₁,...,t_n.typ

où les variables t_i ne sont pas libres dans

Déclarations globales:

let id = exp;;

Même principe qu'auparavant mais la liaison (x:st₁) est ajoutée à l'environnement global.

Exemple

#let id = function x -> x;;
id : 'a -> 'a = <fun>
#let f = id id;;
f : '_a -> '_a = <fun>
#let g = function x -> (id id) x;;
g : 'a -> 'a = <fun>

Modularité I

Un exemple

#2 + 3;;
- : int = 5
#prefix +;;
- : int -> int -> int = <fun>
##open "float";;
#prefix +;;
- : float -> float -> float = <fun>
#1.2 + 1.3 ;;
- : float = 2.5
#2 + 3;;
Entrée interactive:
>2 + 3;;
>^
Cette expression est de type int,
mais est utilisée avec le type float.

Modularité II

#add_int 2 3;;
- : int = 5
##close "float";;
#2 + 3;;
- : int = 5
#1.2 + 1.3 ;;
Entrée interactive:
>1.2 + 1.3 ;;
>^^^
Cette expression est de type float,
mais est utilisée avec le type int.

Modularité III

Un module est défini par:

Un corps : définitions (types, fonctions, constantes, etc.) regroupées dans un texte nommé mod.ml.
Une interface d'exportation nommée mod.mli qui définit les déclarations visibles à l'extérieur: contient des déclarations de types et de valeurs (nom, type).
Pour l'importateur: module = env. de typage (utilisé au cours du typage)
si aucune interface mod.mli n'est défini, toutes les déclarations sont exportées.

Modularité IV

Structure d'un environnement complet

ë Dû ^|´^| ë O û ^|´^| ëC û

D : liaisons des déclarations du pgm. en cours
O : liaisons des modules ouverts
C : modules connus du système

Environnement initial EInit

D : vide
O : modules de la librairie "core" => man. de ref.
C : modules connus du système

Modularité V

Construire un environnement par importation

C : les liaisons déclarées dans les interfaces mod.mli connues du système sont accessibles avec la notation mod__idf.
ouvrir mod: placer les liaisons de mod au début de O.
Si idf de mod déjà lié dans O => masquage de la liaison antérieure, qui reste accessible avec la notation complète.
Aucun masquage des liaisons de D.

Autre choix possible : pas de masquage dans O. Si conflit, notation complète (choix de Ada).

A FAIRE

Vous connaissez un langage de programmation, qui n'est pas Caml-Light. Dans ce langage :

Quelle est la syntaxe des déclarations globales? Où doivent-elles être placées?
Même question avec les déclarations locales.
Si ce langage est typé, comment est faite la vérification/inférence des types.
Si ce langage offre des bibliothèques, y a-t-il compilation séparée?
Comment sont gérés les noms des bibliothèques?

Traits impératifs I

#let counter = ref 0;;
counter : int ref = ref 0
#let add_counter n =
   counter := !counter + n;;
add_counter : int -> unit = <fun>
#let afficher mess =
   print_string mess;
   print_newline ();;
afficher : string -> unit = <fun>
#exception Division_par_zero;;
L'exception Division_par_zero est 
définie.
#let division x y = 
   if y = 0 then raise Division_par_zero
   else x / y;;
division : int -> int -> int = <fun>

Traits impératifs II

Référence

(ref exp)

|- exp : t

|- ref exp : t ref

Affectation

(exp1 := exp2)

|- exp1 : t1 ref |- exp2 : t1

|- exp1 := exp2 : unit

Séquence

(exp1 ; exp2)

|- exp1 : t1 ; |- exp2 : t2

|- exp1;exp2 : t2

Exceptions

(exception idf of typ;;)

|- idf : typ ® exn

|- raise : " a.exn ® a

Un algorithme d'unification entre types

Un langage de types:

ty ::= ty ® ty | ty * ty | int | var

var est un ensemble infini de variables a₁,....

Substitution:

Une substitution est une fonction s: var ® ty étendue aux types telle que:

s(t₁ ® t₂) = s(t₁) ® s(t₂)
s(t₁ * t₂) = s(t₁) * s(t₂)
s(int) = int

Unification:

Deux types t₁ et t₂ sont unifiables, ce que l'on notera t₁ º t₂, s'il existe une substitution s telle que:

s(t₁) = s(t₂)

Un algorithme d'unification entre types

Une substitution s'écrit [a₁:t₁,...,a_n:t_n]. Connaissant la substitution S₁, l'unification de t₁ et t₂ produit la nouvelle substitution S₂. On le note:

S₁ |- t₁ º t₂ : S₂

Avec les règles:

S |- t º t : S

S |- t₁ º t'₁ : S₁ S₁ |- t₂ º t'₂ : S₂

S |- t₁ ® t₂ º t'₁ ® t'₂ : S₂

S |- t₁ º t'₁ : S₁ S₁ |- t₂ º t'₂ : S₂

S |- t₁ * t₂ º t'₁ * t'₂ : S₂

S |- t₁ º t₂ : S₂ S(a) = t₁

S |- a º t₂ : S₂

a ÏDom(S) a ÏVars(S(t))

S |- a º t : S[a:S(t)]

Conclusion

Déclaration du type des identificateurs/synthèse du type
Vérification/inférence
Typage fort: une expression a un type unique
Garanties apportées par le typage fort

Extensions

surcharge
sous-typage, objets
modules

Partie: II
Les types de données

Plan

Introduction
types de base
types produit
types somme
types récursifs

Introduction

Des structures:

contruire des structures complexes à partir de structures de base
les types donnent une information sur ces structures

Des fonctions:

elle manipulent (construisent/ accèdent) ces structures de données.
le filtrage est un moyen de raisonner ``par cas'' sur la forme de ces structures.

Types de base

Des collections finies d'éléments. Ils correspondent souvent à des valeurs primitives de la machine.

int, bool,...

Produit Cartésien I

Produit cartésien d'ensembles:

A × B = { (x,y) : x Î A, yÎ B }

Projections:

A × B ® A, A × B ® B

(A × B) × C ¹ A × (B × C) mais isomorphisme

Produit cartésien de deux types:

Env |- e₁ : t₁ Env |- e₂ : t₂

Env |- (e₁ e₂) : t₁*t₂

#fst;;
- : 'a * 'b -> 'a = <fun>
#snd ;;
- : 'a * 'b -> 'b = <fun>

Produit cartésien de n types:

t_1 * t_2 * ..* t_n

Attention:

t1 * t2 * t3 ¹ (t1 * t2) * t3
¹ t1 * (t2 * t3)

Projections à définir par l'utilisateur

Produit cartésien II

Paires

Un constructeur de type * d'arité 2, un constructeur de valeur : la virgule ,

N-uplets

Un constructeur de type d'arité n formé de (n-1) *, un constructeur de valeur formé de (n-1) virgules ,

Définitions par cas: filtrage

#let fst = function (x,y) -> x;;
fst : 'a * 'b -> 'a = <fun>
#let snd = function (x,y) -> y;;
snd : 'a * 'b -> 'b = <fun>
#let acceder3 = function (x,y,z,t) -> z;;
acceder3 : 'a * 'b * 'c * 'd -> 'c = 
<fun>
#let double_zero = function
       (0,0) -> true
     | (x,y) -> false;;
double_zero : int * int -> bool = <fun>

Type Enregistrement I

Un type produit à composantes nommées.

Constructeur de type

donné par l'utilisateur type ... = {lab_1 : t_1 ; .., lab_n : t_n}

Constructeur de valeur

syntaxe presque identique.

#type enfant = {nom : string ; age : int};;
Le type enfant est défini.
#let simon = {nom = "Simon" ; age = 9};;
simon : enfant = {nom = "Simon"; age = 9}

Notation pointée

#let nom {nom = n;age = a} = n;;
nom : enfant -> string = <fun>
#let nom {nom = n} = n;;
nom : enfant -> string = <fun>
#let nom x = x.nom;;
nom : enfant -> string = <fun>

Enregistrements III

#let anniv = function x -> 
   {nom = x.nom ; age = x.age + 1};;
anniv : enfant -> enfant = <fun>
#(anniv simon);;
- : enfant = {nom = "Simon"; age = 10}
#simon;;
- : enfant = {nom = "Simon"; age = 9}

Masquage

#type societe = {nom : string; numero : int};;
Le type societe est défini.
#let nom2 x = x.nom;;
nom2 : societe -> string = <fun>

Règle de typage

Env |- e : typ typ = {lbl₁:t₁;...;lbl_n:t_n}

Env |- e.lbl_i : t_i

Types somme I

Union disjointe d'ensembles:

t = A Å B = {x.g | x Î A} È {y.d | y Î B}

Injection canonique

gauche : A ® A Å B
droit : A ® A Å B

On a x:t ssi

$ y1:t1 tq x = g(y1) XOR $ y2:t2 tq x = d(y2)

En Caml, ces injection sont données par l'utilisateur au moment de la définition du type.

Types somme II

Syntaxe:

type .. = C1 of t1 | C2 of t2

Convention:

C of unit Þ C

#type color = Coeur | Pique | Carreau | Trefle ;;
Le type color est défini.
#type carte = Dam of color
            | Peti of int*color
            | Jok ;;
Le type carte est défini.

Coeur, Dam, Peti constructeurs de valeur.

Prise en compte de la définition

On ajoute à l'env. global Env les liaisons

ë (C1,t1 -> som), (C2,t2 -> som)<| Env û

Règle de typage

Env |- C_i : t_i ® som Env |- e : t_i

Env |- C_i e : som

Types somme III

Filtrage - Somme

#let valeurfoo = function
   | Dam _  -> 20
   | Peti (10, c) -> 10
   | Peti (x, y) -> 
       if x = 9 & y = Coeur then 11 else 0
   | Jok  -> 1 ;;
valeurfoo : carte -> int = <fun>
#type unites = V of float | H  of float;;
Le type unites est défini.
#let distance_parcourue =
   function (V x, H y) -> x *. y ;;
Entrée interactive:
> function (V x, H y) -> x *. y ;;
> ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
Attention: ce filtrage n'est pas 
exhaustif.
distance_parcourue : unites * unites -> 
float = <fun>
#distance_parcourue (V 25.0, H 4.0);;
- : float = 100.0

Types somme IV

Les motifs M sont définis ainsi:

M	::=	C \| C M \| (M,...,M)
		\| `true` \| `false` \| i
		\| x \| `_`

où:

C est un constructeur de type
i désigne un entier
x, une variable

Types somme IV

Typage des fonction définies par filtrage

Un cas

ë (x₁:t₁),...,(x_n:t_n),Env û |- M : typ₁

ë (x₁:t₁),...,(x_n:t_n),Env û |- exp : typ₂

Env |- function M -> exp : typ₁ ® typ₂

où les x_i sont les variables du motif M.

Plusieurs cas

Env |- : function M₁ -> exp₁ : typ₁ ® typ₂

...

Env |- : function M_n -> exp_n : typ₁ ® typ₂

Env |- function

| M₁ -> exp₁

...

| M_n -> exp_n

: typ₁ ® typ₂

Types récursifs I

Un type est récursif si sa définition contient au moins une occurrence de son nom.

#type exp =   V of string 
            | C of int 
            | P of exp * exp ;;
Le type exp est défini.
#let mon_exp = P(V "x", P (V"y", C 3));;
mon_exp : exp = P (V "x", P (V "y", C 3))
#let rec eval = function 
  | V _ -> 0
  | C n  -> n 
  | P (e1, e2) -> (eval e1) + (eval e2);;
eval : exp -> int = <fun>
#let rec deriv = function s -> function
  | V nom -> if s = nom then (C 1) else (C 0)
  | C n  ->  (C 0)
  | P (e1, e2) -> P((deriv s e1),
                    (deriv s e2));;
deriv : string -> exp -> exp = <fun>

Types récursifs II

#deriv "x" mon_exp;;
- : exp = P (C 1, P (C 0, C 0))

Attention : Syntaxe correcte ¬Þ sémantique définie

#type sans_val = C of sans_val * sans_val ;; 
Le type sans_val est défini.

Conclusion

Un programme = des données + des fonctions
filtrage = raisonnement par cas sur la structure de ces données

Questions

représentation de ces données
qu'est ce qu'une valeur?
comment obtenir la valeur d'une expression?

Ce document a été traduit de L^AT_EX par H^EV^EA.

Partie: I Les principes du typage

Partie: II Les types de données

Partie: I
Les principes du typage

Partie: II
Les types de données