Mémoire présenté devant l`Institut de Science Financière et d
Transcription
Mémoire présenté devant l`Institut de Science Financière et d
Université Claude Bernard – Lyon 1 INSTITUT DE SCIENCE FINANCIERE ET D'ASSURANCES Mémoire présenté devant l’Institut de Science Financière et d’Assurances pour l’obtention du diplôme d’Actuaire de l’Université de Lyon le 2 juillet 2012 Par : Alexis RENAUDIN Titre: Modèle de capital économique pour le risque opérationnel bancaire : estimation, diversification Confidentialité : x NON OUI (Durée : 1 an Membre du jury de l’Institut des Actuaires M. Fréderic PLANCHET 2 ans) Entreprise : Crédit Agricole S.A. Membres du jury I.S.F.A. Directeur de mémoire en entreprise : M. Jean Claude AUGROS Vincent LEHERISSE M. Alexis BIENVENÜE M. Areski COUSIN Mme Diana DOROBANTU Mme Anne EYRAUD-LOISEL M. Nicolas LEBOISNE M. Stéphane LOISEL Autorisation de mise en ligne sur Mlle Esterina MASIELLO un site de diffusion de documents Mme Véronique MAUME-DESCHAMPS actuariels (après expiration de M. Frédéric PLANCHET l’éventuel délai de confidentialité) M. François QUITTARD-PINON Mme Béatrice REY-FOURNIER M. Pierre RIBEREAU M. Christian-Yann ROBERT M. Didier RULLIERE M. Pierre THEROND Secrétariat Mme Invité : Signature du responsable entreprise Signature du candidat Marie-Claude MOUCHON Bibliothèque : Mme Michèle SONNIER 50 Avenue Tony Garnier 69366 Lyon Cedex 07 Modèle de capital économique pour le risque opérationnel bancaire : estimation, diversification A LEXIS R ENAUDIN ISFA, 2012 Résumé Depuis la règlementation Bâle II, les banques ont l’obligation de mobiliser une partie de leurs fonds propres en couverture de leur risque opérationnel. Pour autant, aucune méthode n’est imposée par le régulateur pour quantifier ce capital ; chaque établissement financier peut alors choisir entre une approche standard (calcul forfaitaire) et une approche avancée, sous réserve de validation. L’approche avancée adapte au risque opérationnel les techniques de Value At Risk (VaR) en vigueur pour les risques de marché : le calcul de charge en capital correspond ainsi au quantile à 99,9% de la perte agrégée annuelle théorique. Pour un groupe bancaire constitué de plusieurs entités, cette approche avancée comporte deux grandes étapes. Tout d’abord le calcul de la charge en capital pour une entité considérée : il faut pour cela estimer la fréquence et la sévérité des pertes opérationnelles, et déterminer le quantile approprié de la distribution de la perte annuelle résultante. Vient ensuite la question d’agréger les charges en capital ainsi déterminées pour obtenir un capital pour l’ensemble du groupe – avec un éventuel bénéfice de diversification – ainsi que d’allouer ce capital entre les différentes entités en tenant compte de leur dépendance. Dans ce contexte, l’estimation de la sévérité du risque opérationnel, l’agrégation de ces risques dépendants, mais aussi l’allocation de ce capital à différentes entités d’un même groupe bancaire soulèvent différentes problématiques qui seront identifiées et traitées dans ce mémoire, avec les outils mathématiques associés. Nous présentons ainsi dans une première partie les objectifs de l’étude ainsi que le contexte règlementaire associé au risque opérationnel. Nous étudions ensuite en détails l’étape d’estimation de la sévérité des pertes et proposons une méthode d’estimation plus adaptée aux spécificités du risque opérationnel que les méthodes statistiques classiques, en vue d’obtenir un calcul de charge en capital précis et cohérent. Enfin, nous voyons dans la dernière partie comment agréger et allouer les différentes charges en capital calculées, en tenant compte de la dépendance entre entités d’un même groupe bancaire, afin d’obtenir une valeur de capital économique. Nous proposons notamment pour cela une méthodologie basée sur la théorie mathématique des copules, ainsi que des illustrations numériques pour le groupe Crédit Agricole. Mots-clés : risque opérationnel, Bâle II, maximum de vraisemblance, méthode des moments généralisée, statistiques de test, distance quantile, agrégation des risques, dépendance, copules, capital économique, ICAAP. Abstract Operational Risk is now an important quantitative topic in the banking world as a result of the Basel II regulatory requirements. Through the Advanced Measurement Approach (AMA), banks are permitted significant flexibility over the approaches that may be used in the development of operational risk models. The most popular is the Loss Distribution Approach, which is derived from an actuarial frequency-severity model and the capital requirement is computed from the 99.9% quantile of the theoretical aggregate loss distribution. There are two main steps in this model for a financial institution constituted of several legal entities. First is the computation of the capital charge for a specific entity, which involves estimating the frequency and the severity of the operational losses. Then comes the matter of aggregating these different capital charges to derive an economic capital at Group level – with a potential diversification benefit – and allocating it back to the different entities. In this context, the severity estimation of operational risk, the aggregation of dependent risk types and their allocation are important topics that will be identified and challenged in this actuarial thesis. We will also present the associated mathematical and actuarial concepts, as well as a numerical application on the Credit Agricole Group data. Key words : operational risk, Basel II, maximum likelihood estimation, minimum distance, generalized method of moments, goodness of-fit statistics, quantile distance, risk aggregation, dependance modeling, copulas, economic capital, ICAAP. Remerciements Mes premiers remerciements vont à Vincent LEHÉRISSÉ, mon maître de stage et JeanPhilippe MARY, qui ont su me guider tout au long de ma présence au Crédit Agricole. Leur disponibilité et leurs conseils ont été précieux pour mener mon mémoire à son terme. Je remercie vivement M. Sylvain DELON pour m’avoir accueilli dans son service et de m’avoir permis de préparer le diplôme d’actuaire à l’ISFA à travers un contrat d’alternance. Enfin, je tiens à remercier l’ensemble des membres du GRO (ingénieurs et stagiaires) pour leur accueil et leur sympathie. Il est particulièrement agréable de travailler dans un service où règne une ambiance aussi chaleureuse. i Sommaire Remerciements i I 1 Le risque opérationnel : cadre règlementaire et quantification 1 Introduction et objectifs 1.1 Structure d’accueil . . . . . . . . . . . . . . . . . . . . 1.1.1 Crédit Agricole S.A. . . . . . . . . . . . . . . . 1.1.2 Le Groupe de Recherche Opérationnelle (GRO) 1.2 Qu’est-ce que le risque opérationnel ? . . . . . . . . . . 1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . 1.2.2 Classification . . . . . . . . . . . . . . . . . . . 1.2.3 Particularités des données . . . . . . . . . . . . 1.2.4 Exemples célèbres . . . . . . . . . . . . . . . . 1.3 Aperçu des enjeux du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 3 3 3 3 4 5 6 . . . . . . . . . . . . . . . 7 7 7 7 8 9 9 9 9 10 11 11 11 11 12 12 2 Contexte règlementaire du risque opérationnel 2.1 Les dispositifs règlementaires bancaires . . . . . . . . . . . . . . . . . . . . . 2.1.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Bâle I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Bâle II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Le pilier 1 de Bâle II : une exigence de fonds propres . . . . . . . . . . . . . 2.2.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Principales améliorations . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Les approches de base pour la mesure du risque opérationnel . . . . 2.2.4 L’approche avancée AMA (Advanced Measurement Approach) . . . . . 2.3 Le pilier 2 : pour un meilleur suivi des risques . . . . . . . . . . . . . . . . . 2.3.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 ICAAP et risque opérationnel . . . . . . . . . . . . . . . . . . . . . . 2.4 Comparaison avec le référentiel Solvabilité 2 . . . . . . . . . . . . . . . . . 2.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Poids du risque opérationnel dans la charge en capital règlementaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Vers la norme Bâle III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 . 13 3 L’approche avancée LDA 3.1 Définition du Capital-At-Risk (CaR) . . . . . 3.2 Principe . . . . . . . . . . . . . . . . . . . . 3.3 Prise en compte des assurances . . . . . . . 3.3.1 Caractéristiques des polices . . . . . 3.3.2 Principe d’intégration dans le modèle 3.3.3 Effet sur les distributions . . . . . . . 3.4 Intégration des scénarios . . . . . . . . . . . . . . . . . ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 15 17 17 18 18 19 3.5 Des méthodes alternatives pour le calcul de la charge en capital . . . . . . . . 20 3.5.1 Algorithme récursif de Panjer . . . . . . . . . . . . . . . . . . . . . . . 20 3.5.2 F.F.T. (Fast Fourier Transform) . . . . . . . . . . . . . . . . . . . . . . . 21 II Estimation de la sévérité du risque opérationnel 23 4 Les méthodes d’estimation usuelles 4.1 Quelques rappels théoriques sur les estimateurs . . . . . . . . . . . . . . . 4.2 La méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . 4.2.1 Quelques généralités . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Prise en compte de l’effet de seuil . . . . . . . . . . . . . . . . . . . 4.3 La méthode des moments généralisée . . . . . . . . . . . . . . . . . . . . 4.3.1 Présentation théorique . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Choix de la matrice de pondération et influence sur l’estimation . . 4.3.3 Les différents algorithmes pour implémenter la méthode . . . . . . 4.4 Difficultés d’estimation rencontrées . . . . . . . . . . . . . . . . . . . . . 4.4.1 L’instabilité de la vraisemblance en présence d’un seuil de collecte 4.4.2 Le biais de la méthode des moments généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 26 26 26 27 27 28 29 30 30 34 5 Les solutions alternatives envisagées 5.1 Motivations et démarche scientifique . . . . . . . . . . . . . . . . . . . 5.2 Une autre approximation de la distance minimisée par le maximum de semblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Introduction de la distance K-L . . . . . . . . . . . . . . . . . . 5.2.2 Application au maximum de vraisemblance . . . . . . . . . . . 5.2.3 L’estimation par Maximum Spacing (MS) . . . . . . . . . . . . . 5.3 Minimisation de statistiques de tests . . . . . . . . . . . . . . . . . . . 5.4 Minimisation d’une distance inter-quantiles . . . . . . . . . . . . . . . 5.4.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . . 5.4.2 Pondération de la distance . . . . . . . . . . . . . . . . . . . . 5.4.3 Prise en compte des agrégats . . . . . . . . . . . . . . . . . . . 5.4.4 Prise en compte du seuil de collecte . . . . . . . . . . . . . . . 5.4.5 Choix des différents paramètres . . . . . . . . . . . . . . . . . . 5.4.6 Récapitulatif des étapes de l’estimation . . . . . . . . . . . . . . 5.5 Premier bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vrai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 36 37 39 41 41 42 42 43 43 47 47 6 Comparaison théorique des méthodes d’estimation retenues 6.1 Modèles simples . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Etude du biais . . . . . . . . . . . . . . . . . . . . 6.1.2 Précision des estimations . . . . . . . . . . . . . . 6.1.3 Stabilité des estimations . . . . . . . . . . . . . . . 6.2 Modèles hybrides . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Simulations des données . . . . . . . . . . . . . . . 6.2.2 Estimations . . . . . . . . . . . . . . . . . . . . . . 6.2.3 Calculs de charges en capital . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 49 50 51 52 52 52 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 . 35 III Diversification et agrégation des risques opérationnels : détermination d’un capital économique 54 7 Enjeux et éléments théoriques 56 7.1 Agrégation des risques et allocation : des enjeux importants . . . . . . . . . . 56 7.2 Mesures de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 iii 7.2.2 Propriétés désirables . . . . . . . . . . . . . . . . . . 7.2.3 La mesure VaR (Value at Risk) . . . . . . . . . . . . 7.2.4 La mesure TVaR (Tail Value at Risk) . . . . . . . . . 7.2.5 La mesure CTE (Conditional Tail Expectation) . . . . 7.3 Mesures d’allocation . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Propriétés désirables . . . . . . . . . . . . . . . . . . 7.3.3 Allocation basée sur la mesure VaR . . . . . . . . . . 7.3.4 Allocation basée sur la mesure CTE . . . . . . . . . . 7.4 Mesures de dépendance . . . . . . . . . . . . . . . . . . . . 7.4.1 Définition et propriétés désirables . . . . . . . . . . . 7.4.2 Le coefficient de corrélation linéaire . . . . . . . . . 7.4.3 Le tau de Kendall . . . . . . . . . . . . . . . . . . . . 7.4.4 Le rho de Spearman . . . . . . . . . . . . . . . . . . 7.4.5 Notion de dépendance de queue . . . . . . . . . . . 7.5 Théorie des copules . . . . . . . . . . . . . . . . . . . . . . . 7.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2 Théorème de Sklar (1959) . . . . . . . . . . . . . . . 7.5.3 Quelques propriétés remarquables . . . . . . . . . . 7.5.4 Expression de la dépendance de queue . . . . . . . . 7.5.5 Exemples classiques de copules multivariées . . . . . 7.5.6 Simulation . . . . . . . . . . . . . . . . . . . . . . . 7.5.7 Utilisation dans le contexte de l’agrégation de risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 59 59 59 60 60 60 60 61 61 61 62 62 62 63 63 63 64 64 65 65 68 69 8 Une première approche pour diversifier les charges en capital : l’approximation gaussienne 8.1 Hypothèses et méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Formule d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Exemple simple en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 72 73 73 73 74 75 9 Mise en place d’une nouvelle méthodologie : agrégation par copules 9.1 Principes de la méthode proposée . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.2 Etape 1 : agrégation des catégories de risque . . . . . . . . . . . . . 9.1.3 Etape 2 : agrégation des entités . . . . . . . . . . . . . . . . . . . . . 9.1.4 Etape 3 : Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.5 Exemple en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . 9.1.6 Discussion sur le choix de la copule . . . . . . . . . . . . . . . . . . 9.2 L’exemple du Groupe Crédit Agricole . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Mise en œuvre de la méthodologie d’agrégation précédente dans le cadre de l’ICAAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Parallèle avec la formule standard de Solvabilité II . . . . . . . . . . 9.3 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Capitaux non diversifiés . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.2 Un mot sur les matrices de corrélation . . . . . . . . . . . . . . . . . 9.3.3 Considérations numériques et précision des estimateurs . . . . . . . 9.3.4 Agrégation et capital économique avec hypothèse gaussienne . . . . 9.3.5 Agrégation et capital économique avec copule normale . . . . . . . . 9.3.6 Agrégation et capital économique avec copule de Student . . . . . . iv . . . . . . . . 76 76 76 77 78 79 79 79 81 . . . . . . . . . 81 82 84 84 84 85 86 86 87 10 Approfondissements et perspectives 10.1 Les copules archimédiennes hiérarchiques . . . . . . . 10.1.1 Motivations . . . . . . . . . . . . . . . . . . . . 10.1.2 Définition . . . . . . . . . . . . . . . . . . . . . 10.1.3 Contraintes . . . . . . . . . . . . . . . . . . . . 10.1.4 Exemple . . . . . . . . . . . . . . . . . . . . . . 10.1.5 Avantages et inconvénients . . . . . . . . . . . 10.2 Les vine copulas . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Motivations . . . . . . . . . . . . . . . . . . . . 10.2.2 La décomposition de Vine (Vine decomposition) 10.2.3 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 88 88 88 89 89 91 91 91 91 92 Conclusion 94 Bibliographie 96 Table des figures 99 Liste des tableaux 100 Première partie Le risque opérationnel : cadre règlementaire et quantification 1 Chapitre 1 Introduction et objectifs 1.1 1.1.1 Structure d’accueil Crédit Agricole S.A. Crédit Agricole S.A. a été créé en 2001 pour former un ensemble représentatif des activités et de la puissance du groupe Crédit Agricole, premier groupe bancaire français (28 % du marché des particuliers), et premier groupe bancaire en Europe par les revenus de la banque de détail. Financeur privilégié de l’agriculture depuis l’origine comme son nom l’indique, il a élargi au fil des années son domaine d’activité pour être, aujourd’hui, le partenaire de tous les acteurs de la vie économique : particuliers, entreprises, professionnels et collectivités locales. Le groupe, présent dans plus de 70 pays, s’articule autour de six pôles métiers : 1. Banque de proximité en France : complémentarité entre les Caisses Régionales de Crédit Agricole et le réseau LCL 2. Banque de détail à l’international : Cariparma FriulAdria (Italie), Emporiki Bank (Grèce), Banco Espirito Santo (Portugal), Lukas Bank (Pologne), Meridian Bank (Serbie), Index Bank (Ukraine), ainsi que Crédit du Maroc, Crédit Agricole Egypt, Credit Uruguay Banco. 3. Services financiers spécialisés : crédit à la consommation (CACF), crédit-bail (Crédit Agricole Leasing) et affacturage (Eurofactor) 4. Gestion d’actifs (Amundi), assurances (Prédica, Pacifica) et banque privée (Gestion Privée Indosuez, LCL Banque privée) 5. Banque de financement et d’investissement : CA-CIB (Crédit Agricole Corporate & Investment Bank, ex-Calyon) 6. Activités et filiales spécialisées : capital investissement (Crédit Agricole Private Equity, Idia Agricapital, Sodica), immobilier (Crédit Agricole Immobilier), presse (Uni-Éditions). Crédit Agricole S.A. a été organisé lors de sa cotation de manière à être représentatif de tous les métiers et de toutes les composantes du Groupe. Il détient ainsi 25% du capital de chaque Caisse régionale, ainsi que l’ensemble des participations du Groupe dans ses filiales spécialisées ou dans des banques de détail à l’international. Crédit Agricole S.A. est un organe central et de contrôle, tête de réseau et banque centrale du Groupe Crédit Agricole, dont le capital est détenu à plus de 50% par les 39 caisses régionales, elles-mêmes détenues par les 2544 caisses locales. Au sein du groupe Crédit Agricole, Crédit Agricole S.A. exerce quatre missions principales : – il veille à la cohésion et au bon fonctionnement du réseau, – il représente le Groupe auprès des autorités bancaires, – il garantit l’unité financière du Groupe, 2 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN – il se veut responsable de la cohérence de son développement en coordonnant, en liaison avec ses filiales spécialisées, les stratégies des différents métiers et assurant le développement international du Groupe. 1.1.2 Le Groupe de Recherche Opérationnelle (GRO) Initialement créé en février 1969 au sein du Crédit Lyonnais et rattaché ensuite à la Direction des Risques (DRG) du Crédit Agricole après la fusion de 2003, le GRO a une mission de consultant quantitatif interne et représente un pôle d’aide à la décision dans différents domaines. Le GRO est organisé sur le modèle d’une société de services travaillant pour l’ensemble des entités du Groupe Crédit Agricole sur tout type de sujet nécessitant une expertise technique et scientifique. Les différentes entités du Groupe lui confient donc des études, dont les résultats servent de support à la prise de décisions stratégiques. Le GRO s’emploie aussi de façon générale à maintenir une activité de recherche et de veille technologique afin de rester à la pointe des techniques et méthodes quantitatives employées dans la banque et de manière plus générale en gestion des risques. 1.2 1.2.1 Qu’est-ce que le risque opérationnel ? Définition Le risque opérationnel peut être défini comme le risque de pertes résultant de procédures internes inadaptées ou défaillantes, d’erreurs humaines, de défaillance des systèmes informatiques, d’évènements extérieurs. Ce sont donc des risques qui existent depuis toujours dans les banques ou les entreprises. Il peut s’agir par exemple de problèmes informatiques qui retardent l’exécution d’ordres sur les marchés (incidents courants) mais également de l’incendie de locaux ou de fraude interne pouvant entrainer de lourdes pertes. Le risque opérationnel est donc un risque qui peut s’avérer très couteux. Même s’ils sont connus depuis longtemps, la gestion des risques opérationnels est un exercice encore assez récent pour les banques, qui a largement évolué grâce à la réforme Bâle II (qui sera détaillée dans le chapitre suivant). Le Comité de Bâle définit les risques opérationnels de manière formelle comme «le risque de pertes dues à une inadéquation ou à une défaillance des procédures, personnels, systèmes internes ou à des évènements extérieurs ». 1.2.2 Classification Catégories de risques (ELs) Pour répondre à la diversité des évènements assimilables à des risques opérationnels et homogénéiser les données de pertes, le Comité de Bâle présente une classification des différentes catégories d’évènement (EL pour Event Line) dont les intitulés sont regroupés dans le tableau 1.1. Ces catégories sont généralement respectées par la plupart des banques lors de la collecte de leurs pertes, dans un soucis d’homogénéité et de comparaison. Il est toutefois possible que dans certaines banques des catégories soit sous-divisées, comme la catégorie EL2 généralement différenciée entre pertes liées à la monétique (M) et les autres types de fraude externe hors monétique (HM). Lignes métiers (BLs) Les différentes catégories d’évènements précédentes sont observées suivant une répartition des lignes métier (business lines, BL) de la banque, proposée par le Comité de Bâle. Leurs intitulés figurent dans le tableau 1.2. 3 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Catégorie de risque Intitulé EL1 Fraude interne EL2 Fraude externe EL3 Pratiques en matière d’emploi et sécurité sur le lieu de travail EL4 Clients, produits et pratiques commerciales EL5 Dommages occasionnés aux actifs corporels EL6 Interruption de l’activité et dysfonctionnement des systèmes EL7 Exécution, livraison et gestion des processus TABLE 1.1 – Classification des catégories de risque (ELs) pour le risque opérationnel selon Bâle II Ligne métier Intitulé BL1 Financement d’entreprise BL2 Activités de marché BL3 Banque de détail BL4 Banque commerciale BL5 Paiements et règlements BL6 Fonctions d’agent BL7 Gestion d’actifs BL8 Courtage de détail TABLE 1.2 – Classification lignes métier (BLs) pour le risque opérationnel selon Bâle II Ces lignes métiers sont données à titre indicatif, et peuvent subir des modifications selon les différentes activités de la banque ou groupe bancaire considéré. 1.2.3 Particularités des données Seuil de collecte Les pertes collectées liées au risque opérationnel comportent un seuil de collecte. C’està-dire qu’aucune perte de type risque opérationnel d’un montant inférieur au seuil fixé par la banque (variant généralement de 1000 C à 10 000 C), ne figure dans les bases de données. Les données disponibles pour l’estimation sont donc censurées à gauche. Comme nous le verrons par la suite, ceci est source de difficulté dans l’estimation des paramètres. Soulignons également que les bases de pertes ont généralement une volumétrie très variable selon les catégories de risques, certaines bases ne comportant qu’une dizaine de pertes. Cela constitue donc un obstacle supplémentaire à l’estimation statistique 1 . Hétérogénéité Les données de pertes opérationnelles possèdent des profils très atypiques. Malgré la classification des risques et l’amélioration de la collecte des pertes, il existe toujours une 1. L’estimation se fait en général sur une base de donnée comportant 5 ans d’historique, ce qui correspond au minimum requis règlementairement. La période d’historique pourrait être accrue mais cela ne serait alors plus représentatif des nouveaux risques encourus. 4 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN hétérogénéité non négligeable à l’intérieur des catégories mais aussi entre les catégories. Elles contiennent de nombreuses pertes de montants faibles ainsi que quelques évènements extrêmes, ce qui les rend difficiles à ajuster. La figure 1.1 permet de l’illustrer, avec un boxplot (“boite à moustaches”) pour 6 catégories de pertes différentes collectées par le Groupe Crédit Agricole. F IGURE 1.1 – Boxplot pour différentes catégories de pertes opérationnelles Nous notons tout d’abord que les données issues du risque opérationnel présentent des pertes extrêmes, et ce quelque soit la catégorie. Nous pouvons également remarquer que la catégorie “exécution” (EL7) semble se distinguer car elle parait contenir deux groupes de pertes : un premier groupe de pertes peu sévères (dans la boite) et un groupe important de pertes très sévères (points hors de la boite). La catégorie “dommages” (EL5) semble pour sa part avoir une distribution très asymétrique. Nous verrons dans la suite du mémoire que des difficultés d’estimation, spécifiques aux données issues du risque opérationnel, en découlent. 1.2.4 Exemples célèbres Nous illustrons la définition et la classification précédente au travers d’exemple de pertes liées au risque opérationnel subies secteur bancaire lors de ces dernières années. L’incendie du Crédit Lyonnais Le Crédit Lyonnais a été victime de l’incendie spectaculaire de son siège parisien, le 5 mai 1996. L’incendie, parti de la salle des marchés, ravage le bâtiment et la salle des coffres. Même si certains doutes subsistent sur son caractère accidentel, il occasionne de sérieux dégâts et le Crédit Lyonnais revend ensuite son siège central 1.3 milliard de francs à l’assureur AIG. Cette perte rentre donc dans la catégorie ’Dommages’ (EL5) de la ligne métier ’Banque de détail’ (BL3). 5 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN L’affaire Kerviel Plus récemment, la Société Générale a enregistré en 2008 des pertes très lourdes (plusieurs milliards d’euros) résultant de prises de positions frauduleuses d’un de ces tradeurs, Jérôme Kerviel. Il aurait exposé la banque à un risque de marché en accumulant des positions acheteuses sur des contrats à terme sur indices. Il aurait surtout dissimulé ces opérations de marché en introduisant dans le système informatique de la Société Générale des opérations inverses fictives les compensant. Les causes de ces importantes pertes sont la fraude interne (EL1) et une défaillance dans les contrôles sur les activités de marché (BL2). 1.3 Aperçu des enjeux du mémoire La répartition des pertes opérationnelles en deux dimensions exposée précédemment permet d’obtenir une vision matricielle des risques opérationnels que peut subir un établissement bancaire : EL1 ... EL7 BL1 ... BL8 Chaque case de la matrice, dans laquelle sont collectées un certain nombre de pertes, est alors appelée cellule de risque (risk cell) et fait l’objet d’une exigence de fonds propres : les techniques d’estimation associées seront l’objet de la seconde partie du mémoire. Une fois ces charges en capital calculées pour les différentes cellules, nous nous devons alors de les agréger pour calculer la charge en capital global au titre du risque opérationnel au niveau groupe, et réallouer ce capital aux différentes lignes métier ou entités du groupe. Cela sera l’enjeu de la troisième et dernière partie de ce mémoire. 6 Chapitre 2 Contexte règlementaire du risque opérationnel 2.1 Les dispositifs règlementaires bancaires La règlementation prudentielle a considérablement évolué ces vingt dernières années sous l’impulsion des travaux du Comité de Bâle (Basel Committee on Banking Supervision, BCBS). Même si celui-ci n’a aucun pouvoir décisionnel, ses recommandations sont reprises par les autorités de tutelle des différents pays concernés. En Europe, c’est la Commission Européenne qui est chargée de définir les règles prudentielles CRD (pour Capital Requirement Directive), dont la mise en œuvre revient aux différentes autorités nationales de tutelle. En France, c’est l’Autorité de Contrôle Prudentiel 1 (ACP), qui contrôle l’application de la CRD, une fois que celle-ci a été adaptée en droit français par le Comité de la Règlementation Bancaire et Financière. 2.1.1 Historique Les grandes étapes de l’évolution de ces directives prudentielles sont répertoriées cidessous : 1988 1993 1996 1999 2004 2006 2010 2013 2.1.2 Publication de « The Basel Capital Accord » définissant le ratio Cooke (Bâle I). Élaboration de la CAD par la Commission Européenne. Incorporation du risque de marché dans l’assiette des risques. Premier document consultatif sur le nouveau ratio McDonough. Publication du texte définitif de la règlementation Bâle II. Mise en place de la norme Bâle II. Publication du texte définitif de la nouvelle règlementation Bâle III. Mise en œuvre programmée de la norme Bâle III. Bâle I En 1988, le Comité de Bâle propose un ratio international de solvabilité qui doit permettre une adéquation des fonds propres par rapport aux risques, tout en renforçant la solidité et la stabilité du système bancaire et également d’atténuer les inégalités concurrentielles entre les banques. Il s’agit du ratio Cooke (du nom du président du Comité de Bâle de l’époque) qui correspond au rapport entre le montant des fonds propres et celui des encours pondérés de crédit (EPC). Plusieurs niveaux de fonds propres sont définis : 1. L’ACP résulte de la fusion intervenue en janvier 2010 entre l’organe de contrôle des banques (la Comission Bancaire) et celui contrôlant les assurances (l’Autorité de Contrôle des Assurances et des Mutuelles). 7 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 1. les fonds propres de base F P1 (Tier one), qui correspondent au capital et aux réserves, 2. les fonds propres complémentaires F P2 (Tier two), principalement constitués d’emprunts subordonnés, 3. les fonds propres surcomplémentaires F P3 (Tier three). Selon l’accord de Bâle I, les établissements financiers doivent alors respecter les contraintes F P1 6 F P2 et F P1 /EP C 6 4%, mais également le ratio de Cooke défini par : F P1 + F P2 > 8% EP C La règlementation a ensuite évolué progressivement pour prendre en compte les risques de marché, avec la proposition de deux approches, l’une forfaitaire, et l’autre autorisant les banques à utiliser un modèle interne. L’idée est d’inciter les banques à construire des modèles robustes pour évaluer leurs risques de marché et donc d’obtenir des exigences de fonds propres plus réalistes. Ce n’est qu’en janvier 1996 que le Comité de Bâle propose d’incorporer le risque de marché dans le ratio Cooke. En 1999, le Comité de Bâle publie un premier document consultatif pour réformer le ratio Cooke, puis un second en 2001, avec pour objectifs la modification du traitement du risque de crédit et l’intégration du risque opérationnel. 2.1.3 Bâle II Le Comité de Bâle publie finalement en juin 2004 le Nouvel Accord de Bâle, résultat de plusieurs périodes consultatives auprès des institutions financières. La première motivation de l’Accord est la modification de l’assiette des risques, qui prévoit désormais la prise en compte du risque opérationnel, et la définition d’un nouveau ratio de solvabilité, le ratio McDonough : F P1 + F P2 > 8% ERC + ERO + ERM où ERC , ERO et ERM sont les exigences définies respectivement pour le risque de crédit, le risque opérationnel et le risque de marché. La seconde motivation de l’Accord est de rendre l’exigence de fonds propres plus sensible au risque réel encouru par la banque. L’idée est d’autoriser les banques, sous certaines conditions, à recourir à des modèles internes pour mesurer le risque de crédit et le risque opérationnel, de la même façon que pour le risque de marché .Cette réforme s’appuie sur trois piliers, représentés sur la figure 2.1 F IGURE 2.1 – Les trois piliers Bâle II Le premier pilier correspond aux exigences minimales de fonds propres et vise à définir le ratio McDonough (voir ci-dessus). Le deuxième pilier concerne le processus de surveillance 8 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN et donne un pouvoir accru aux autorités de contrôle (ACP). Le troisième pilier porte pour sa part sur la communication financière et la discipline de marché, et vise à améliorer la transparence financière des banques pour permettre à des tiers d’apprécier l’adéquation de leurs fonds propres. Nous détaillons dans les sections suivantes les deux premiers piliers, auxquels se rapporte ce mémoire. 2.2 2.2.1 Le pilier 1 de Bâle II : une exigence de fonds propres Objectifs Les fonds propres (ou le capital) sont un des éléments du passif d’une banque. Ils peuvent être calculés de façon règlementaire. Dans ce cas, il est d’usage de parler de fonds propres forfaitaires ou règlementaires (regulatory capital). Il est aussi possible de les calculer à partir de modèles internes qui tiennent compte des effets de diversification ou de la nature du portefeuille de la banque. Dans ce cas, nous parlons de fonds propres ou capital économique (economic capital, voir dans la suite §2.3.1 p.11 pou une définition plus précise). L’idée de Bâle II est de faire converger le capital règlementaire − souci des autorités de contrôle − et le capital économique − souci des établissements bancaires. 2.2.2 Principales améliorations En ce qui concerne le premier pilier de Bâle II, le traitement du risque de marché reste inchangé par rapport à Bâle I, alors que le traitement du risque de crédit est revu en profondeur. Les méthodes de calcul des fonds propres règlementaires liés au risque de crédit sont standardisées et imposées par le Comité de Bâle, et sont au nombre de trois : – l’approche standard (SA, pour Standard Approach), qui reste une méthode forfaitaire – l’approche IRB (Internal Ratings Based) « simple » est basée sur des mesures internes des probabilités de défaut (PD) et des mesures exogènes des autres paramètres du modèle – l’approche IRB dite « avancée », où la banque estime d’autres paramètres comme la LGD (Loss Given Default) et l’EAD (Exposure at Default). Notons que les approches IRB ne sont pas des modèles internes à proprement parler, mais plutôt des formules standards avec des paramètres internes à chaque établissement. Le risque opérationnel est désormais pris en compte et à l’image du risque de crédit trois approches sont proposées par le régulateur pour le calcul de l’exigence en fonds propres lié à ce nouveau risque. Nous introduisons le principe de ces approches dans les paragraphes suivants. 2.2.3 Les approches de base pour la mesure du risque opérationnel Parmi les trois approches qui vont suivre, les banques ont la possibilité de choisir celle qui leur parait le mieux correspondre à la spécificité de leur activité et à leur capacité globale d’action. Elles doivent en effet s’assurer qu’elles disposent de l’ensemble des moyens nécessaires à la mise en œuvre de la solution retenue. Le degré de sophistication de chacune de ces trois méthodes est en effet croissant. L’approche indicateur de base BIA (Basic Indicator Approach) Cette méthode, la plus simple, est forfaitaire : le calcul des fonds propres à mobiliser se fait à partir d’un indicateur fondé sur le produit annuel brut (PAB), qui intègre le produit net bancaire et d’autres éléments d’exploitation. L’indicateur d’exposition retenu est la moyenne des parties positives des PAB des trois dernières années : 9 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 3 1X IEn = max(PABn−i , 0). 3 i=1 Ensuite, le montant des fonds propres (FP) au titre de l’année écoulée n se fait par un calcul forfaitaire : F Pn = 15% × IEn En tant que calcul forfaitaire, il n’a pas besoin de justification. Néanmoins cette méthode a de fortes chances de surévaluer le risque opérationnel réellement encouru par la banque. Au contraire en période de crise, le PAB de la banque étant très faible, le montant de fonds propres évalué par cette méthode devient dérisoire, et cette méthode inappropriée. Les banques à vocation internationale ont à ce titre opté pour des méthodes certes plus complexes mais plus réalistes pour évaluer leur exposition au risque opérationnel. L’approche standardisée TSA (The Standardized Approach) Cette approche affine quelque peu la précédente, en effectuant un calcul par ligne métier j : X F Pn = βj · IEn,j j Les coefficients βj proposés par le Comité de Bâle sont : Ligne métier β Financement d’entreprise 18% Activités de marché 18% Banque de détail 12% Banque commerciale 15% Paiement et règlement 18% Fonctions d’agent 15% Gestion d’actifs 12% Courtage de détail 12% Par rapport à l’approche précédente, elle fait généralement diminuer le montant des fonds propres de 8 à 10% en moyenne (sur des montants de plusieurs milliards d’euros). 2.2.4 L’approche avancée AMA (Advanced Measurement Approach) Cette approche implique le choix et la mise en œuvre d’une méthode avancée, dont l’intérêt est de donner une appréciation plus juste du risque à travers la construction d’un modèle interne, qui peut parfois mener à une réduction d’environ 20% de l’exigence en fonds propres par rapport aux méthodes standard. Le choix du modèle interne est laissé à l’appréciation de la banque, mais fait néanmoins l’objet de contrôles réguliers de la part des instances de régulation, après avoir été validé sur des critères à la fois qualitatifs et quantitatifs. Quelque soit l’approche retenue, la mesure du risque opérationnel doit néanmoins correspondre à une période de détention d’un an et à un niveau de confiance de 99,9%. La méthode avancée la plus populaire dans le secteur bancaire pour le risque opérationnel est la méthode LDA (pour Loss Distribution Approach) et sera la méthode de référence tout au long de ce mémoire. Sa présentation détaillée fait l’objet du chapitre suivant (voir p.15). 10 I.S.F.A. 2.3 2.3.1 Mémoire d’actuariat A. R ENAUDIN Le pilier 2 : pour un meilleur suivi des risques Motivations Le pilier 2 de l’accord de Bâle II est un élément essentiel du nouveau dispositif d’adéquation des fonds propres, dont l’objectif est double. Pour le superviseur, il s’agit de s’assurer que les établissements financiers disposent de systèmes d’évaluation et de surveillance de l’ensemble de leurs risques et qu’ils disposent d’un niveau de fonds propre conforme à leur profil de risque. Pour les établissements financiers, l’objectif est de développer des techniques de contrôle et de gestion de leurs risques, ainsi que de mettre en place un processus interne pour l’évaluation de leur capital interne (ICAAP : Internal Capital Adequacy Assessment Process) adapté à leur profil de risques et à leurs stratégies. Ce processus a pour vocation à leur permettre de correctement identifier, mesurer, agréger et surveiller les risques, et d’assurer la détention d’un montant de capital en adéquation avec leur profil de risque. Ce capital déterminé à partir d’un modèle interne est appelé capital économique, et peut se définir comme le montant de capital déterminé selon des bases réalistes qu’une banque estime nécessaire de détenir pour faire face aux risques qu’elle encourt. 2.3.2 ICAAP et risque opérationnel En pratique, ce capital économique est calculé en déterminant le montant de capital nécessaire à la solvabilité de l’établissement sur une période de temps donnée et selon une probabilité déterminée à l’avance. Ce niveau de capital économique est alors fonction du profil de risque de l’établissement financier, et de son degré d’aversion au risque. Celui-ci se matérialise par un objectif de notation externe qu’il détermine et auquel correspond un seuil de confiance. Plus concrètement si l’objectif de notation externe de la banque est AA, cela correspond à une probabilité de défaut de 0,03% à l’horizon d’un an. De ce fait, le capital économique au titre du risque opérationnel représente le montant de fonds propres que la banque estime nécessaire de détenir pour faire face, dans 99,97% des cas à l’horizon d’un an, à une perte extrême pouvant mettre en péril sa solvabilité. Dans la suite du mémoire, nous utiliserons donc le niveau de quantile cible de 99,97% lors des calculs et application numériques menés dans le cadre pilier 2 (ICAAP) en raison de l’objectif de rating externe AA de Crédit Agricole. 2.4 Comparaison avec le référentiel Solvabilité 2 Dans l’esprit de Bâle II régulant les activités bancaires, la Commission Européenne souhaite améliorer l’évaluation et le contrôle des risques dans le secteur de l’assurance. Dans ce contexte, la directive Solvabilité II est un projet de règlementation prudentielle qui à partir du 1er janvier 2013 s’appliquera à l’ensemble des sociétés d’assurance 2 de l’Union Européenne. La réforme Solvabilité II vise à renforcer les critères de solvabilité des assureurs afin de garantir le respect des engagements pris envers les assurés. La réforme prône une nouvelle approche des risques, tous les risques auxquels les assureurs sont soumis devant être pris en compte, tant du point de vue quantitatif que qualitatif. Notamment, le risque opérationnel rentre dans désormais son champs d’application. Dans une logique similaire à Bâle II, elle se construit autour de trois piliers : 1. Exigences financières quantitatives 2. Autorité de contrôle et système de gouvernance 2. Entrent également dans le champs d’application de Solvabilité II : les mutuelles, les institutions de prévoyance, et les réassureurs. 11 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 3. Discipline de marché Tous les acteurs du marché sont impliqués dans l’élaboration de cette réforme. Ils doivent en effet répondre à des études quantitatives permettant à la Commission européenne d’évaluer l’impact concret de ces mesures sur le marché. Actuellement, cinq études ont d’ores et déjà été menées, la dernière en date étant QIS5. 2.4.1 Définition La définition du risque opérationnel est quasiment identique dans les deux règlementations, comme le montre le tableau suivant : Solvabilité II Bâle II Risque de pertes résultant de procédures internes inadaptées ou défaillantes, ou de membre du personnel et de systèmes, ou d’évènements extérieurs. Le risque opérationnel ainsi défini comprend les risques juridiques mais non les risques découlant de décisions stratégiques ni les risques de réputation Risque de pertes résultant d’une inadaptation ou d’une défaillance imputable à des procédures, personnels et systèmes internes, ou à des évènements extérieurs. Inclut les évènements de faible probabilité d’occurrence, mais à risque de perte élevée. Le risque opérationnel ainsi défini inclut le risque juridique, mais exclut les risques stratégiques et de réputation. Source : directive cadre du 10 juillet 2007, articles 13 et 100 Source : art. 4-1 de l’arrêté transposant Bâle II en France Précisons également qu’en terme de nomenclature les lignes métiers et catégories de risques sont normalisées dans Bâle II (matrice 8 × 7), alors que non précisées dans Solvabilité II. 2.4.2 Mesure Formule standard La formule standard permettant de quantifier le risque opérationnel dans Solvabilité II est le pendant de l’approche standard de Bâle II. Evidemment, la formule est ici adaptée en introduisant des facteurs spécifiques, notamment pour les compagnies exerçant une activité d’assurance vie. La formule générale pour le besoin en capital au titre du risque opérationnel est la suivante : SCRop = min (30%BSCR, Op) + 25%Expul Avec Op : Charge du risque opérationnel pour tous les contrats hors contrats d’assurance vie où le risque est pas porté entièrement par l’assuré Expul : Montant bruts de réassurance des dépenses annuelles dans le cadre des contrats en unités de compte (i.e dépenses administratives) durant les 12 derniers mois. 12 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Modèle interne Comme pour Bâle II, il est possible d’utiliser une approche dite avancée pour la mesure du risque opérationnel ; nous parlons alors de modèle interne. Ces modèles internes sont encore peu développés dans les société d’assurance (principalement en raison du manque de données dû à l’absence de processus de collecte généralisé et fiable, la gestion de ce risque étant très récente dans ce secteur). Il est néanmoins possible de mettre en place des modèles calqués sur le secteur bancaire (utilisation de scénarios, modélisation fréquence/sévérité...), nous renvoyons pour cela au mémoire d’actuariat [29] consacré à la modélisation du risque opérationnel dans les compagnies d’assurance. 2.4.3 Poids du risque opérationnel dans la charge en capital règlementaire Terminons enfin cette comparaison en ajoutant que dans le secteur bancaire, le risque opérationnel représente le deuxième risque le plus important en terme d’allocation des fonds propres, après le risque de crédit. Comme le montre la figure 2.2, il représente environ 15 à 25% des exigences en fonds propres des banques grandes banques généralistes. F IGURE 2.2 – Illustration de la répartition du capital entre risque de crédit, opérationnel et risque de marché dans une grande banque Avec Solvabilité II, le poids du risque opérationnel a été revu à la hausse dans la dernière vague de papiers consultatifs (QIS5) mais ce n’est pas encore définitif. Il représente en tout cas pour un assureur l’un des trois plus gros risques règlementaires. 2.5 Vers la norme Bâle III Tirant les leçons de la crise, et sous l’impulsion du G20, le Comité de Bâle a engagé une révision complète du dispositif prudentiel applicable à compter de début 2013 et qui vise à renforcer la résilience des banques (capacité à absorber des chocs liés à des conditions de marché défavorables). Les enjeux de cette réforme sont considérables, non seulement pour le secteur bancaire et la stabilité des marchés financiers, mais aussi pour l’économie dans son ensemble. Le projet de nouvel accord se concentre ainsi sur cinq points d’attention majeurs. 1. Harmonisation et renforcement de la qualité des fonds propres Le premier objectif est d’accroitre l’homogénéité, la qualité et la transparence des fonds propres, c’est-à-dire s’assurer qu’ils sont constitués de capitaux capables d’absorber des montants de pertes importants et non d’instruments financiers complexes et sujets à fluctuations. 13 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 2. Renforcement des exigences de fonds propres relatives au risque de contrepartie La principale innovation réside dans la charge en capitaux propres au titre des ajustements de crédit sur produits dérivés de gré à gré (OTC) 3. Mise en place d’un ratio de levier Le Comité envisage d’intégrer au Pilier 1 un ratio d’effet de levier (leverage ratio) destiné à plafonner les expositions en risques indépendamment de la qualité des risques encourus, et ce afin de limiter l’endettement des banques. 4. Instauration de mesures contra-cycliques Afin de limiter les effets de pro-cyclicité (en temps de crise, les banques réduisent leur offre de crédit pour maintenir un niveau de solvabilité constant, ce qui a pour effet d’aggraver la crise), les banques seront tenues de constituer des coussins en capital destinés à absorber les pertes en période économique dégradée, ceci afin de stabiliser le système bancaire en lissant les chocs économiques 5. Instauration de ratios de liquidité Le Comité de Bâle propose la mise en place de deux ratios de liquidité. Le premier (LCR, pour Liquidity Coverage Ratio) imposera aux banques de détenir un stock d’actifs sans risque, qui leur permettrait de résister pendant trente jours à une crise qui se traduirait par des retraits massifs. Le second ratio (NSFR, Net Stable Funding Ratio) vise le même objectif sur un an. Plus contraignant, il doit inciter les établissements de crédit à renforcer leur profil de financement en faveur de ressources de long terme, supposées plus stables. Précisons enfin qu’en l’état actuel des choses, aucune réelle nouveauté n’a été apportée en ce qui concerne la mesure et la gestion du risque opérationnel. 14 Chapitre 3 L’approche avancée LDA Dans ce chapitre, nous présentons de manière plus détaillée cette méthode de quantification du risque opérationnel qui sera utilisée dans la suite, ceci afin de mieux comprendre les enjeux du mémoire qui vont suivre. 3.1 Définition du Capital-At-Risk (CaR) La charge en capital (Capital-at-Risk ou CaR) est la part des fonds propres destinée à préserver la banque de l’insolvabilité en cas de perte(s) exceptionnelle(s). Cette couverture du risque est bien entendu assortie d’un certain niveau de confiance ou probabilité, fixé à 99.9% dans le cadre de la règlementation Bâle II (voir chapitre précédent). L’objet de la méthode qui va suivre est de calculer la charge en capital au titre du risque opérationnel, pour une entité et une ligne métier fixées. 3.2 Principe La méthodologie que nous présentons ici (LDA pour Loss Distribution Approach) est l’aboutissement de réflexions menées par le Groupe de Recherche Opérationnel, et a fait l’objet d’une publication ([1]). Elle est dérivée d’une approche actuarielle ancienne et largement utilisée en assurance 1 . L’idée générale est de modéliser la perte liée au risque opérationnel pour une période donnée (1 an) et d’en déduire la valeur en risque, pour chaque catégorie. La difficulté réside dans le fait que cette perte ne correspond pas à une seule occurrence mais qu’elle est le résultat de plusieurs pertes successives. Nous parlons alors de perte agrégée, ou perte annuelle, pour la perte résultante. Il faut donc distinguer deux distributions : – la fréquence des pertes (Frequency Loss Distribution) – la sévérité des pertes (Severity Loss Distribution) En introduisant les notations : – N la variable aléatoire associée au nombre d’évènements annuels (les pertes) et p(k) = P (N = k) sa distribution discrète – ξ la variable aléatoire représentant le montant d’une perte individuelle. F sera la fonction de répartition de la sévérité des pertes. L’hypothèse classique du modèle fréquence-sévérité suppose les pertes indépendantes entre elles, identiquement distribuées, et indépendantes de N . 1. Qui figure notamment dans le livre référence de Panjer et Klugmann : Loss Models From Data to Decisions (1998) 15 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN La perte annuelle est donc : `N = N X ξk k=1 Dans cette configuration d’indépendance, nous pouvons exprimer l’espérance et la variance de la perte annuelle en fonction de celles de la sévérité et de la fréquence : E [`N ] = E [N ] .E [ξ] et par la formule de décomposition de la variance 2 var [`N ] = E [N ] .var [ξ] + (E [ξ]) .var [N ] (3.1) En notant G la fonction de répartition de la perte annuelle `, alors nous pouvons également écrire : (P ∞ ∗k pour x > 0 k=1 p(k)F (x) (3.2) G(x) = p(0) pour x = 0 où F ∗n (x) est la fonction de répartition de la somme des n pertes (ξ1 , ξ2 , ..., ξn ), qui s’obtient par auto-convolution d’ordre n de la distribution de sévérité 2 . La charge en capital CaR (ou VaR) de niveau α s’obtient finalement d’après la distribution de la perte annuelle en calculant son quantile de niveau α : CaR(α) = inf {x | G(x) ≥ α} = G−1 (α) Le Comité de Bâle fixe un niveau règlementaire de quantile α = 99.9%, ce qui correspond à la couverture d’un risque millénaire. La figure 3.1 donne une idée des distributions obtenues lors des différentes étapes du modèle pour une catégorie de risque et ligne métier donnée, ainsi que de la charge en capital résultante en fonction de α. Ce calcul est effectué pour chaque catégorie de risque, généralement par simulations de Monte-Carlo afin d’obtenir la distribution annuelle empirique agrégée et d’en prendre le quantile de niveau α, fixé à 99.9% dans le cadre de l’exigence en fonds propres du pilier 1. Une agrégation est ensuite effectuée pour calculer la CaR totale liée au risque opérationnel, notamment en tenant compte des corrélations entre catégories. Cela fait notamment l’objet de la dernière partie du mémoire. Récapitulatif des principales étapes du modèle 1. Estimation des paramètres de sévérité Il s’agit ici d’estimer, dans le cadre classique de la statistique paramétrique, les paramètres θ = (θ1 , ..., θp ) de la loi de sévérité choisie pour modéliser la sévérité des pertes ξi . La méthode de référence sur un plan théorique est le maximum de vraisemblance mais nous verrons qu’en raison des particularités des données liées au risque opérationnel il est souvent préférable d’utiliser d’autres méthodes d’estimation (ceci est l’objet de la deuxième partie de ce mémoire). 2. Rappelons que si les variables aléatoires indépendantes ∞ continues X et Y admettent respectivement les densités f et g , alors Z = X + Y a pour densité : h(x) = −∞ g(y)f (x − y)dy = f • g Si X et Y sont i.i.d. de même densité f , la variable Z a pour densité f • f = f ∗2 , résultat qui peut se généraliser au cas d’une somme de n variables aléatoires. 16 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 3.1 – Les différentes étapes de la méthode LDA pour l’estimation de la charge en capital 2. Estimation de la fréquence N est supposé suivre une loi de Poisson de paramètre λ. Cette distribution présente l’avantage de ne nécessiter qu’un seul paramètre que nous pouvons estimer simplement via maximum de vraisemblance par la moyenne empirique du nombre annuel de pertes, et elle est très utilisée en assurance pour modéliser des problèmes similaires. 3. Construction de la distribution annuelle des pertes Cette distribution est construite par simulations de Monte-Carlo, avec les paramètres θ et λ, estimés précédemment. 4. Calcul de la charge en capital Il suffit pour cela d’extraire le quantile empirique à 99.9% de la distribution construite à l’étape précédente. 3.3 Prise en compte des assurances Les banques validées en approche avancée AMA se voient offrir la possibilité de prendre en compte certaines polices d’assurance dans le calcul de leur capital règlementaire au titre du risque opérationnel. L’effet de réduction du capital induit par la prise en compte de ces couvertures est cependant limité à hauteur de 20% par le régulateur. 3.3.1 Caractéristiques des polices Les polices d’assurance souscrites par la banque se doivent de respecter plusieurs caractéristiques afin de pouvoir être prises en compte lors du calcul de leur exigence en fond propres règlementaire. Les principales contraintes sont les suivantes : – L’assureur fournissant la police doit avoir un rating minimum de A (ou équivalent) – La police doit être d’une durée initiale d’au moins 12 mois – L’annulation de la police par l’assureur (ou son non renouvèlement) doit faire l’objet d’un préavis d’au moins 90 jours 17 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN – Pas de motif d’exclusion pouvant être liés à l’action du régulateur – Le contrat ne doit faire intervenir que des tierces parties (ce qui exclue donc l’utilisation de sociétés d’assurance captives 3 ) Les polices remplissant ces conditions sont dites conformes à Bâle II. En pratique, il est d’usage d’introduire dans le modèle un taux de couverture Bâle II, qui traduit la conformité des polices d’assurances aux exigences Bâle II. Cela est dû à la complexité de certains contrats où plusieurs assureurs ou réassureurs peuvent intervenir, et de la couverture des polices propres à chaque contrat, pouvant ne pas être toujours être définies selon les catégories de risque Bâle II. 3.3.2 Principe d’intégration dans le modèle L’intégration des couvertures d’assurance dans le modèle LDA se fait naturellement lors de l’étape des simulations de Monte-Carlo, car nous avons alors accès au montant individuel des pertes, et pouvons si besoin appliquer l’effet d’une couverture d’assurance. Pour cela, un jeu complémentaire de paramètres caractérisant la police d’assurance est ajouté au modèle lors de cette étape. Il comprend la franchise, le taux d’assurabilité, le taux de couverture (taux de conformité des polices à Bâle II, défini au paragraphe précédent), le plafond des sinistres, et enfin le plafond annuel. En terme de montant remboursé, cela se traduit par de la manière suivante, pour des taux d’assurabilité t1 et t2 (généralement égaux à 100% et 0%) : Plafond par sinistre Franchise Ϭй Montant remboursé/sinistre t2 (%) t1 (%) – Pour un montant de perte enregistré inférieur à la franchise, l’assurance ne rembourse rien – Lorsque le montant de perte excède la franchise mais reste en deçà du plafond, t1 % du sinistre moins la franchise est remboursé – Lorsque le montant excède le plafond par sinistre, le montant remboursé est égal à t1 % de (plafond – franchise) + t2 % de (perte – plafond) – Il faut enfin vérifier que l’économie ne dépasse pas le plafond annuel, auquel cas il faut ajouter la différence Cet algorithme est appliqué à chaque perte issue des simulations Monte-Carlo, après avoir déterminé si la couverture de cette perte est susceptible d’être pris en compte dans le calcul moyen de taux de couverture (conformité Bâle II). 3.3.3 Effet sur les distributions L’exemple suivant a été obtenu sur des pertes issues de la catégorie ’Dommages’ de banque de détail, susceptibles d’être couvertes par une police d’assurance sur les immeubles. Il est alors possible de comparer les distributions obtenues avec et sans la prise en compte de l’effet de cette police d’assurance (supposée Bâle II à 95%), les différentes figures étant rassemblées figure 3.2. Il est alors aisé de vérifier l’effet attendu, à savoir une diminution de la charge en capital 3. Une captive d’assurance est une entreprise de d’assurance détenue par une entreprise ou un groupe d’entreprises qui n’exercent pas leurs activités en tant qu’assureurs directs ou réassureurs. La mission d’une captive se limite à la fourniture de produits de d’assurance couvrant les risques de l’entreprise ou du groupe d’entreprises dont elle fait partie. 18 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 3.2 – Comparaison des distributions issues du modèle LDA avec la prise en compte de polices d’assurance (courbes rouges) et sans (en bleu) 3.4 Intégration des scénarios Utilité et définition En complément des calculs de charges en capital effectués à partir des pertes internes collectées, la banque intègre à son calcul de risque une analyse de scénarios. Ils représentent des évènements exceptionnels qui permettent de compléter le profil de risques internes déterminé sur la base des données historiques. La méthodologie du Groupe Crédit Agricole repose sur une liste de 25 scénarios de base définis de concert avec les autres institutions de la place. Chaque entité choisit au sein de cette liste, les scénarios qu’elle désire inclure dans son périmètre de risque opérationnel. Ce choix s’effectue en fonction i) du métier ou de l’activité exercée par l’entité et, ii) de l’environnement, de la sensibilité ou du niveau d’exposition de l’entité à l’évènement déclencheur du sinistre lié à ce scénario de base. Chaque entité peut également retenir des scénarios additionnels si elle considère que cela permet de prendre en considération certaines de ses spécificités. En moyenne, les entités retiennent un douzaine de scénarios différents pour la détermination de leurs exigences au titre du risque opérationnel. Construction d’un scénario Un scénario représente un évènement de risque bâlois au niveau le plus fin. Il est composé, en général, d’un ensemble de trois points représentant chacun un couple (montant de perte (potentielle ou avérée) × fréquence de cette perte). Ces trois points sont définis à dires d’experts, et correspondent à trois états possibles associés à la réalisation de l’évènement de risque : – hypothèse haute : combinaison de facteurs d’analyse (Cause, Dispositif de Contrôles Permanents et Périodiques) telle que la sinistralité soit la plus défavorable, – hypothèse moyenne : combinaison de facteurs d’analyse telle que la sinistralité soit jugée intermédiaire, – hypothèse basse : combinaison de facteurs telle que la sinistralité soit jugée la moins défavorable. 19 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Les trois hypothèses sont croissantes en termes de sévérité et décroissantes en termes de fréquence. La construction des scénarios s’effectue sur la base d’une fiche d’analyse de scénario renseignée par chaque entité comprenant toute une série d’informations normées. Traitement des données de scénarios Les données des scénarios sont ensuite utilisées pour déterminer les paramètres des lois de sévérité et de fréquence suivant deux modes : – Scénario internalisé : les données de pertes des scénarios sont intégrées aux données internes de pertes collectées par l’entité sous condition du respect de critères métiers et statistiques (critère d’homogénéité au profil de pertes internes). Elles sont par conséquent, utilisées conjointement avec les données de pertes internes pour ajuster les lois de fréquence et de sévérité. – Scénario stand alone : les trois points de scénarios sont utilisés pour déterminer les paramètres des distributions de fréquence et de sévérité par résolution d’un système de 3 équations non linéaires à 3 inconnues (µ, σ, λ dans le cadre d’une sévérité lognormale et d’une fréquence suivant une loi de Poisson). Précisons ici que l’utilisation de loi de sévérité comportant plus que deux paramètres nécessiterait d’autant plus de points de scénarios. Les scénarios stand alone sont alors traités comme des catégories de risque à part entière (calcul d’une CaR correspondant aux paramètres préalablement calculés). 3.5 Des méthodes alternatives pour le calcul de la charge en capital Etant donné le temps de calcul parfois conséquent requis par l’étape de simulations de Monte-Carlo pour obtenir la distribution agrégée avec une bonne précision, il peut être souhaitable d’utiliser d’autres techniques numériques afin d’accélérer le calcul de charge en capital. Nous présentons ci-dessous les deux méthodes les plus populaires pour le calcul des distributions convoluées, leurs avantages et leurs inconvénients. 3.5.1 Algorithme récursif de Panjer Présentation C’est la méthode la plus connue pour le calcul des distributions convoluées, notamment utilisée en assurance non-vie dans le cadre du modèle collectif. Initialement présentée par Harry Panjer dans [25] sous le nom de Panjer recursion, elle se fonde sur le théorème suivant. Avec les notations introduites précédemment et l’équation (3.2), il est possible d’écrire la densité de la perte annuelle `N comme g(x) = ∞ X p(k)f ∗k (x) k=0 Soit en discrétisant selon une grille de N points de pas h > 0, gn = P (`N = hn) = ∞ X p(j)f ∗n (x) j=0 Le théorème de Panjer indique alors que si la variable aléatoire N suit une loi de fréquence discrète Q = {qk }k∈ N pouvant s’écrire pour k > 1 sous la forme p(k) = (a + b/k) .p(k − 1) avec a, b ∈ R, alors la distribution agrégée discrète gn peut être calculée de manière récursive suivant la formule : 20 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN gn ∞ X bj = fj gn−j , n > 1 a+ n j=1 g0 = p(0) Application au modèle LDA, avantages, inconvénients Notons tout d’abord que la loi de Poisson employée dans le modèle LDA pour la variable aléatoire N rentre bien dans les critères d’applications du théorème, avec a = 0 et b = λ. Nous obtenons donc la formule récursive suivante pour une sévérité de densité f choisie : ∞ gn = λX j.fj .gn−j n j=1 Le principal intérêt de la méthode est l’obtention d’une formule exacte (même récursive) pour calculer chacun des termes de la distribution de probabilité. De ce fait, cette méthode est théoriquement très précise car elle ne nécessite aucune méthode numérique (intégration, dérivation...) pour l’évaluation des termes de la somme. Pour autant, sa complexité et le temps de calcul en découlant la rend difficilement utilisable dans le cadre du modèle LDA. En effet, pour chaque calcul d’un terme de la somme gp il faut parcourir toutes les valeurs calculées précédemment (g1 , g2 , ..., gp−1 ), soit une complexité algorithmique en O N 2 . Comme le nombre de point de discrétisation N doit être assez important pour obtenir une précision suffisante, cela implique des temps de calculs très conséquents. C’est notamment le cas pour de grandes valeurs de λ, qui a tendance a alourdir les queues de distributions et nécessite donc un nombre de points de discrétisation plus important afin de pouvoir correctement estimer le quantile à 99.9% de la distribution agrégée ; c’est pourquoi cette méthode est très peu utilisée dans le domaine du risque opérationnel. 3.5.2 F.F.T. (Fast Fourier Transform) Fondements théoriques Nous pouvons définir 4 la transformée de Fourier d’une fonction réelle f par +∞ f (u)e−ivu du F(f )(v) = g(v) = −∞ et il est possible de retrouver f (sous conditions de régularité appropriées) à l’aide de la transformée de Fourier inverse : +∞ 1 F (g)(u) = f (u) = g(v)eiuv dv 2π −∞ Ainsi, pour une variable aléatoire Z, il est possible de relier sa densité fZ à sa fonction caractéristique via les transformées de Fourier : −1 +∞ φZ (u) = E eiuZ = fZ (v)e iuv +∞ fZ (v)e−iuv dv = F(fZ )(u) dv = −∞ −∞ Inversement, la densité se retrouve alors en écrivant : F −1 (φZ )(u) = F −1 F(fZ )(u) = fZ (u) = fZ (u) Il est donc possible de passer de la densité à la fonction caractéristique d’une variable aléatoire,et inversement, en manipulant ces transformées de Fourier. 4. Il existe d’autres définitions, qui diffèrent généralement d’un facteur selon la convention choisie. 21 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Application au calcul de charge en capital Dans PNle cadre du modèle LDA, l’objet est de calculer la distribution de la perte annuelle ` = i=1 ξi dont nous ne connaissons pas l’expression analytique, afin d’en déduire la charge en capital comme un quantile de cette distribution . Or il est possible d’exprimer explicitement sa fonction caractéristique φ` au moyen de la fonction caractéristique φξ de la sévérité, elle-même obtenue par transformation de Fourier de sa densité fξ (comme détaillé au paragraphe ci-dessus). En effet, les sévérités étant considérées comme indépendantes et identiquement distribuées, en conditionnant selon la fréquence N il vient : N φ`|N (u) = E eiu` | N = φξ1 φξ2 ...φξN (u) = [φξ (u)] D’où en prenant l’espérance, h i N φ` (u) = E eiu` = E E eiu` | N = E (φξ (u)) = gN (φξ (u)) N où gN (t) = E t désigne la fonction génératrice de la variable aléatoire discrète de fréquence N , qui dans le cas d’une loi de Poisson de paramètre λ vaut gN (t) = exp (λ(t − 1)). Il est alors possible d’obtenir la densité f` comme transformée de Fourier inverse de φ` . Le passage à la fonction caractéristique ainsi que son inversion se font en pratique en utilisant l’algorithme FFT (ou FFT inverse), le plus performant numériquement 5 . C’est un algorithme qui nécessite d’avoir discrétisé les fonctions intervenant dans le processus précédent selon une grille de points (x1 , x2 , ..., xNF F T ). La fonction de répartition de ` et la CaR associée se déduit alors par somme cumulée du vecteur de densité discrétisé. En résumé, le processus de calcul par FFT de la charge en capital correspondant à la distribution convoluée peut donc se décrire de la façon suivante : 1. Discrétiser la fonction de densité de la sévérité fξ 2. Utiliser l’algorithme FFT pour obtenir la fonction caractéristique discrétisée φξ 3. Appliquer la fonction génératrice gN 4. Utiliser l’algorithme FFT inverse pour obtenir le vecteur de densité discrétisé f` . 5. Calculer le vecteur de la fonction de répartition discrétisée pour en déduire la charge en capital recherchée Avantages et inconvénients Le principal avantage de cette méthode est sa rapidité : alors que le calcul de CaR par simulations de Monte-Carlo peut parfois s’avérer très chronophage (plusieurs heures) , le calcul par FFT est pour sa part quasiment immédiat (quelques secondes). En revanche, cette méthode est assez instable numériquement et le choix des différents paramètres peut s’avérer délicat. En effet, les densités intervenant étant définies sur R+ , se pose la question du choix de la borne supérieure de l’intervalle de discrétisation ainsi que du nombre de points à choisir à l’intérieur de cet intervalle afin de conserver une précision de calcul suffisante. La problème est alors l’arbitrage entre un intervalle suffisamment grand (afin qu’il contienne la CaR recherchée) et un nombre de points de discrétisation assurant une précision satisfaisante (taille qui ne peut excéder 231 − 1 sur une machine standard 32 bits). Ce problème numérique devient donc particulièrement complexe lors de la manipulation de densités de lois à queues épaisses, pour lesquelles la FFT n’est pas adaptée. Enfin, cette manière de procéder rend par essence cette méthode incompatible avec la prise en compte des assurances dans le calcul de charge en capital détaillée précédemment (§3.3). 5. Pour une description plus précise de l’algorithme FFT et de ses propriétés se référer à S CHALLER P et TEMNOV G (2008), Efficient and Precise Computation of Convolutions : Applying FFT to Heavy Tailed Distributions, dans Computational Methods in Applied Mathematics, Vol 8, No. 2, pp 187-200 22 Deuxième partie Estimation de la sévérité du risque opérationnel 23 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Dans cette partie, il est question d’améliorer le modèle LDA préalablement présenté au niveau de l’étape déterminante de l’estimation des paramètres de sévérité, et de trouver des méthodes qui pourraient être plus adaptées au contexte des données de pertes liées au risque opérationnel. 24 Chapitre 4 Les méthodes d’estimation usuelles Dans ce chapitre, nous présentons les deux méthodes d’estimation les plus couramment employées dans le cadre du risque opérationnel, pour l’estimation du paramètre θ = (µ, σ) d’une loi de sévérité lognormale. 4.1 Quelques rappels théoriques sur les estimateurs Afin de présenter dans ce chapitre et le suivant les propriétés des estimateurs obtenus, nous rappelons certaines définition théoriques que nous utiliserons. Convergence – θ̂n est un estimateur convergent de θ s’il converge en probabilité vers θ, c’est-à-dire si : ∀ε > 0, P (|θn − θ| > ε) −→ 0 n∞ – Si la convergence a lieu presque sûrement (p.s.) alors l’estimateur est dit fortement convergent. h i h i En pratique, une condition suffisante pour assurer la convergence est E θ̂n = θ et Var θ̂n −→ n∞ 0. Biais h i – L’estimateur θ̂n est dit sans biais si pour tout n, E θ̂n = θ. Les valeurs de l’estimateur sont alors en moyenne autour du vrai paramètre, et ceci quelque soit la taille n de l’échantillon. – L’estimateur θ̂n est dit asymptotiquement sans biais si le biais diminue quand la taille h i de l’échantillon augmente : E θ̂n −→ θ. n∞ Efficacité L’estimateur θ̂n est dit efficace s’il est de variance minimale parmi tous les estimateurs de θ ayant même moyenne. Normalité asymptotique Nous dirons que l’estimateur θ̂n est asymptotiquement normal (ou gaussien) s’il existe deux suites de fonctions réelles mn (θ) et σn (θ), cette dernière étant strictement positive, telles que la suite : Zn = θ̂n − mn (θ) σn (θ) 25 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN converge en loi vers une variable aléatoire de loi normale centrée réduite. 4.2 La méthode du maximum de vraisemblance 4.2.1 Quelques généralités La méthode du maximum de vraisemblance (MLE pour Maximum Likelihood Estimation) est la technique d’estimation la plus populaire en raison de ses bonnes propriétés théoriques, que le lecteur pourra trouver dans tous les manuels de statistique. Rappelons simplement ici que l’estimateur du maximum de vraisemblance est obtenu en maximisant la fonction de vraisemblance (ou log-vraisemblance), et que l’estimateur θd M L ainsi obtenu est sans biais, asymptotiquement efficace, et possède la propriété de normalité asymptotique. Nous rappelons la fonction densité lognormale choisie pour représenter la sévérité des pertes : f (x; µ, σ) = (ln x−µ)2 1 √ e− 2σ2 σx 2π La log-vraisemblance s’écrit alors pour un échantillon de n pertes historiques (collectées sans seuil) : L(µ, σ) = n X ln f (ξi ; µ, σ) i=1 n =− n n 1X ln σ 2 − ln 2π − 2 2 2 i=1 ln(ξi ) − µ σ 2 − n X ln(ξi ) i=1 Les estimateurs µ bM L et σ bM L maximisent la fonction de log-vraisemblance, ils vérifient donc ∂µ L (b µML , σ bML ) = 0 et ∂σ L (b µML , σ bML ) = 0 . Un calcul analytique est possible et ils valent : n µ bML 4.2.2 n 2 1X 1X ln ξi et σ bML = ln ξi − µ bML = n i=1 n i=1 Prise en compte de l’effet de seuil Pour les paramètres de sévérité La présence de données tronquées affecte l’estimation de la distribution de sévérité puisque la distribution empirique (pertes effectivement collectées) est différente de la vraie distribution (celle que nous devons obtenir si aucune perte n’est négligée) : il faut donc relier la vraie distribution à sa version empirique. Il faut alors considérer la vraisemblance conditionnelle. Pour une sévérité lognormale et un seuil de collecte H, la densité conditionnelle s’écrit en divisant par le terme normalisateur : f (x; µ, σ) f (x; µ, σ) f (x; µ, σ|H) = ∞ 1{x≥H} = 1{x≥H} 1 − F (H; µ, σ) f (y; µ, σ)dy H Ceci se traduit par une modification de la fonction de log-vraisemblance : L(µ, σ|H) = n X i=1 ln f (ξi ; µ, σ|H) = n X ln f (ξi ; µ, σ) − n ln (1 − F (H; µ, σ)) (4.1) i=1 Le deuxième terme dépendant de µ et σ par l’intermédiaire de la fonction de répartition lognormale F (dont il n’existe pas d’expression analytique), il n’y a pas dans ce cas de 26 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN formules fermées pour les estimateurs du maximum de vraisemblance. L’optimisation de la vraisemblance se fait donc de manière numérique. Cet effet de seuil génère donc de l’instabilité sur la fonction de vraisemblance, dont l’optimisation est parfois compliquée (voir la suite du rapport pour plus de précisions, paragraphe 4.4.1). Pour le paramètre de fréquence Nous rappelons que dans le modèle LDA (cf. chapitre 3 page 15), le paramètre de fréquence λ est estimé via maximum de vraisemblance, par la moyenne empirique du nombre annuel de pertes dans l’échantillon, estimateur noté λ̂sample . Si le biais de collecte n’est pas pris en compte, utiliser cet estimateur sans correction signifierait qu’une banque utilisant un seuil de collecte grand (ayant donc un faible nombre de pertes effectivement collectées) devrait allouer moins de capital qu’une autre qui utiliserait un seuil plus faible. Ceci est absurde et met donc en évidence la nécessité de corriger le paramètre de fréquence pour prendre en compte le biais de collecte. L’expression de l’estimation du paramètre corrigé de fréquence s’obtient d’après la loi de Bayes : λ̂corr = λ̂sample 1 − F (H; µ̂, σ̂) Il faut donc effectuer cette correction après avoir estimé les paramètres de sévérité à l’étape précédente par µ̂ et σ̂. 4.3 4.3.1 La méthode des moments généralisée Présentation théorique L’idée de cette méthode (Generalized Method of Moments, GMM ou MMG) est de chercher le paramètre θ qui minimise l’écart entre les deux premiers moments théoriques (dépendants de θ) et leurs équivalents empiriques (dépendant des données). Au lieu d’exploiter l’information complète de la fonction de densité f des pertes (également contenue dans la fonction génératrice des moments) il est aussi possible de n’utiliser qu’un nombre restreint de moments. Évidemment, cette perte d’information se traduit par de moins bonnes propriétés théoriques par rapport au maximum de vraisemblance. Notations Le vecteur des pertes est noté (ξi )i=1..n . Comme rappelé dans la section précédente, il nous faut prendre en compte la censure à gauche des données de pertes. Nous nous intéresserons donc aux deux premiers moments théoriques conditionnellement au seuil H notés respectivement m1 (µ, σ) et m2 (µ, σ), qui s’obtiennent en calculant l’intégrale pour p = 1..2 : E [ξ p | ξ > H] = 1 1 − F (H; µ, σ) +∞ H 2 xp−1 − (ln x−µ) 2σ 2 √ e dx σ 2π Les détails du calcul sont donnés par Frachot et al. (2001) ([6]), pour obtenir : ln H−(µ+σ 2 ) 1−Φ σ 2 m1 (µ, σ) = eµ+σ /2 1−Φ( ln H−µ ) σ ln H−(µ+2σ 2 ) 1−Φ σ 2 m2 (µ, σ) = e2(µ+σ ) 1−Φ( ln H−µ ) σ où Φ désigne la fonction de répartition de la loi normale centrée réduite. 27 I.S.F.A. Mémoire d’actuariat Leurs contreparties empiriques sont : ( m̂1 = m̂2 = 1 n 1 n A. R ENAUDIN Pn ξi Pi=1 n 2 (ξ i=1 i ) Nous noterons également g (θ) = (g1 (θ), g2 (θ)) le vecteur des différences entre moments théoriques et empiriques 1 : ( g1 (θ) = m1 (θ) − m̂1 g2 (θ) = m2 (θ) − m̂2 Principe La résolution de l’équation vectorielle g (θ) = 0 n’admettant pas de solution analytique, nous sommes amenés à la résoudre numériquement de manière approchée, en minimisant une distance entre g (θ) et 0. Nous nous donnons pour cela une matrice symétrique définie positive W afin de minimiser la forme quadratique suivante : Q (θ) = t g (θ) W g (θ) (4.2) ce qui fournit l’estimateur θ̂GM M . 4.3.2 Choix de la matrice de pondération et influence sur l’estimation Nous pouvons montrer que le choix de W n’influence pas la convergence de la méthode vers le vrai paramètre θ0 (voir pour cela Hansen (1982) [3]). Cependant, ce choix influe sur la variance asymptotique de l’estimateur obtenu. Choix naïf Le choix de W = I (matrice identité) fournit un estimateur noté θ(1) asymptotiquement normal et consistant, c’est-à-dire convergent vers la vraie valeur du paramètre θ0 . Il n’est cependant pas efficace (au sens où sa variance asymptotique n’est pas optimale). Ce choix de W revient alors à chercher l’estimateur des moindres carrés minimisant g12 + g22 c’est à dire : θ(1) = argmin θ 2 X (mi (θ) − m̂i )² i=1 Nous représentons sur la figure 4.1 le biais de cet estimateur en fonction de la taille n de l’échantillon log-normal de paramètres µ = 8 et σ = 2. Pour chaque échantillon, le biais a été moyenné sur N = 50 simulations. Choix optimal Il existe un choix optimal de W permettant d’obtenir une variance asymptotique minimale pour l’estimateur (voir de nouveau [3] pour les détails théoriques). En notant les moments unitaires empiriques centrés d’ordre 1 et 2 hi,1 = ξi − m1 (θ) et hi,2 = ξi ²−m2 (θ), et les vecteurs h1 =t (h1,1 , ..., hn,1 ) et h2 =t (h1,2 , ..., hn,2 ), la matrice optimale est définie par : 1. Il est aussi possible d’utiliser la variance de la loi au lieu du moment théorique d’ordre 2 : l’équivalent empirique est alors la variance empirique des pertes. Cela n’influe pas sur l’estimation obtenue. 28 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Biais Sigma MMG2 N=50 0.0 −0.2 −0.4 −0.6 biaisMMGmodif3_N50_n2000$biais_sigma −1.0 −0.8 0.5 0.0 −0.5 biaisMMG_N50_n2000$biais_mu_with_n 1.0 0.2 Biais Mu MMG N=50 0 500 1000 1500 2000 0 500 n 1000 1500 2000 n F IGURE 4.1 – Biais des estimateurs de µ et σ obtenus avec le choix W = I −1 var(h1 ) cov(h1 , h2 ) cov(h1 , h2 ) var(h2 ) −1 t = h1 h2 −1 Wopt = [cov(hi )]i=1..2 = L’estimateur obtenu en minimisant l’équation (4.2) est alors efficace au sens où sa variance est la plus petite possible (en définissant la relation d’ordre sur les matrices : A < B ⇔B − A est semi-définie positive) parmi cette classe d’estimateurs. Nous le remarquons clairement sur la figure 4.2 où l’estimateur obtenu présente une volatilité moins importante que précédemment. Biais Sigma MMG N=50 0.0 −0.2 −0.4 −1.0 −0.8 −0.6 biaisMMG_N50_n2000$biais_sigma 0.8 0.6 0.4 0.2 0.0 −0.2 biaisMMGmodif3_N50_n2000$biais_mu_with_n 0.2 1.0 Biais Mu MMG2 N=50 0 500 1000 1500 2000 0 n 500 1000 1500 2000 n F IGURE 4.2 – Biais des estimateurs de µ et σ obtenus avec le choix W = Wopt 4.3.3 Les différents algorithmes pour implémenter la méthode Two-Step MMG C’est la première version de la MMG, présentée par H ANSEN (1982) (cf. [3]). Comme son nom l’indique, l’algorithme comporte seulement 2 étapes pour calculer l’estimateur θ̂2SGM M : 29 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Algorithme 4.1 2-step MMG 1. Calculer θ(1) en minimisant (4.2) avec W = I 2. Calculer θ̂2SGM M en minimisant (4.2) avec W = W θ(1) Cette version possède l’avantage d’être relativement peu coûteuse en temps de calcul (2 minimisations à effectuer, dans lesquelles W ne dépend pas de θ). Elle est en revanche moins précise que les méthodes qui suivent, puisqu’une estimation grossière de la matrice de covariance est utilisée. Iterative MMG Les deux versions améliorées suivantes ont été proposées par Hansen et al. (1996) ([4]). Dans cette version, nous itérons la méthode précédente jusqu’à l’obtention d’un critère de convergence pour obtenir θ̂IT GM M : Algorithme 4.2 Iterative MMG 1. Calculer θ(1) en minimisant (4.2) avec W = I 2. Calculer θ(2) en minimisant (4.2) avec W = W θ(1) 3. Si |θ(2) − θ(1) | < ε alors θ̂IT GM M := θ(2) sinon retourner à l'étape 2 avec θ(1) ← θ(2) 4. Définir θ̂IT GM M := θ(2) où ε > 0 est un critère de convergence que nous pouvons prendre arbitrairement proche de 0 pour améliorer la convergence de la méthode. Cette méthode est donc plus précise mais plus coûteuse en temps de calcul. Continuous-updating MMG Dans cette dernière version, la minimisation est directement faite sur l’équation (4.2), où W dépend explicitement de θ, la matrice est donc recalculée à chaque itération de l’algorithme d’optimisation lors de la recherche du minimum : θ̂IT GM M := argmin t g (θ) W (θ)g (θ) θ Cette méthode a pour avantage d’être directement implémentable. Cependant, la non linéarité et la complexité de la fonction à optimiser font que cette méthode est relativement instable et sensible à l’algorithme d’optimisation choisi et ses starting values. 4.4 Difficultés d’estimation rencontrées Dans cette section, nous mettons en exergue les différentes difficultés qu’induit l’utilisation des méthodes d’estimation dites “standard” que sont le maximum de vraisemblance et la méthode des moments généralisée. Nous montrons en quoi elles posent parfois problème pour estimer la sévérité du risque opérationnel, en l’illustrant sur des exemples réels. 4.4.1 L’instabilité de la vraisemblance en présence d’un seuil de collecte Présentation du problème L’obstacle le plus gênant à l’utilisation de l’estimation par maximum de vraisemblance 30 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN dans le cadre du risque opérationnel est l’instabilité de la vraisemblance à optimiser. En effet, le seuil de collecte modifie la vraisemblance qui devient non convexe et très instable numériquement. Nous rappelons l’expression de la vraisemblance dans le cas de n pertes opérationnelles ξi collectées au dessus d’un seuil H : L(µ, σ | H) = n Y i=i f (ξi ; µ, σ) 1 − F (H; µ, σ) La présence d’un seuil de collecte ajoute donc un facteur 1/ (1 − F (H; µ, σ)) à toutes les contributions des observations à la vraisemblance. Or ce terme peut devenir très grand pour certaines valeurs de (µ, σ), ce qui complique fortement l’optimisation numérique lors de la recherche du maximum (bien évidemment, le même problème se pose si nous utilisons la log-vraisemblance). Afin de mieux nous en convaincre, nous traçons sur la figure 4.3 le terme figurant au dénominateur de la fonction de vraisemblance pour le seuil de collecte en vigueur au Crédit Agricole (H = 1000C) en fonction de µ et σ. F IGURE 4.3 – Comportement du terme au dénominateur de la vraisemblance pour H = 1000 Nous observons alors que ce dénominateur est très proche de 0 dès que µ devient négatif. Si la vraisemblance ne présente pas de maximum au niveau des starting values de l’algorithme d’optimisation (généralement de l’ordre de µ0 = 8 et σ0 = 2) alors ce dernier va aller chercher l’extrémum de la fonction sur une plage de valeurs où le paramètre µ est négatif, zone où la vraisemblance devient très instable en raison du facteur au dénominateur de la vraisemblance. Mise en évidence sur données réelles Nous pouvons illustrer ce cas sur données réelles : l’opposé de la log-vraisemblance (à minimiser) est ainsi tracée figure 4.4 en fonction de µ (σ étant fixé à 2), pour un échantillon de 191 pertes de la catégorie ’dommages’ survenues entre 2003 et 2007. Cet échantillon de pertes a été choisi en raison de ses “mauvaises” propriétés (présence de plusieurs pertes égales et de pertes extrêmes, faible adéquation au modèle log-normal...) afin de mettre à mal les méthodes d’estimation de sa sévérité. Il fait d’ailleurs partie des catégories mises en évidence précédemment au travers des boxplots (figure 1.1 page 5 ). Nous remarquons ainsi une forte instabilité de la fonction à minimiser dès que µ 6−7. Ceci laisse à penser que le minimum trouvé par l’algorithme d’optimisation, s’il converge, sera incohérent. Pour illustrer ces problèmes numériques, le logiciel R indique que la valeur de l’opposé de la log-vraisemblance en (µ = −10, σ = 2) vaut −∞. 31 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 2000 1950 1900 1850 1800 1750 –10 –9 –8 –7 –6 –5 –4 –3 –2 mu F IGURE 4.4 – Opposé de la log-vraisemblance d’un échantillon réel de la catégorie ’dommages’ (banque de détail) en fonction de µ, pour σ = 2. Dans ces conditions, nous comprenons que la méthode du maximum de vraisemblance est ici inapplicable et inadaptée. Pourtant, le résultat de l’optimisation avec le même logiciel semble tout de même converger (retour du code 0 dans le champ $convergence) : > optim(c(8,2),NegLogVrais, method = "Nelder-Mead") $par [1] -87.05392 11.51389 $value [1] 1567.848 $convergence [1] 0 Pour autant, les paramètres estimés (µ̂ = −87.05, σ̂ = 11.51) sont absurdes d’un point de vue métier comme nous l’expliquons dans le paragraphe suivant. Le problème des µ 6 0 A ce stade de l’étude, nous pouvons nous poser la question de savoir comment interpréter les résultats de l’estimation, et si certaines valeurs de paramètres sont en pratique inacceptables. D’un point de vue théorique, la seule contrainte sur les paramètres d’un modèle lognormal est σ > 0. Le résultat précédent est donc en théorie valable. En revanche, une fois les paramètres de ce modèle estimés, la proportion de pertes inférieures au seuil s’estime par F (H; µ̂, σ̂). Comme l’avons constaté sur la figure 4.3, ce terme est très proche de 1 dès que µ 6 0 : toute la masse de probabilité est donc concentrée en-deçà du seuil. Ceci est très dangereux d’un point de vue métier car les pertes extrêmes (bien supérieures à 1000 C) ne sont alors pas du tout prises en compte par le modèle. De plus, comme nous le verrons par la suite, un calcul de charge en capital avec un paramètre µ négatif conduit à des valeurs aberrantes. Dans toute la suite de l’étude, nous rejetterons donc systématiquement les résultats d’estimation menant à un µ négatif, en considérant la méthode inadaptée au problème. Un mot sur l’algorithme d’optimisation Précisons ici que le problème identifié auparavant n’est pas spécifique à l’algorithme d’optimisation employé. Les résultats précédents ont été obtenus en utilisant la méthode du simplexe de Nelder-Mead 2 implémentée dans R, qui parait la méthode d’optimisation la plus adaptée au problème. En effet, contrairement aux algorithmes comme la descente de 2. John Nelder et Roger Mead (1965), “A simplex method for function minimization”, dans Computer Journal, vol. 7, No.4 32 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN gradient ou ses dérivés (BFGS), elle ne calcule pas la matrice Hessienne de la fonction à optimiser, et ne fait qu’évaluer successivement la fonction en des points judicieusement choisis. De plus, elle est beaucoup moins sensible aux starting values données. Nous avons donc testé les principales méthodes d’optimisation sur la série de pertes précédente (disponibles sous R en argument de la commande optim), y compris l’optimisation sous contraintes. Nous recensons les résultats dans le tableau 4.1. Méthode d’optimisation µ̂M L σ̂M L - Log-vrais Convergence Nelder-Mead -87.1 11.5 1567.8 Oui BFGS -42.7 8.49 1645.6 Oui Gradient-conjugué -4.22 4.40 1648.3 Non BFGS-B (contrainte : µ > 0) 0.00 3.68 1841.2 Oui BFGS-B (contrainte : µ > 2) 2.00 3.29 1842.9 Oui TABLE 4.1 – Résultat des différentes méthodes d’optimisation de la log-vraisemblance sur données réelles (catégorie ’dommages’ de la banque de détail) Nous pouvons alors observer que la méthode de Nelder-Mead donne les “meilleurs” résultats, en tout cas en ce qui concerne la valeur de la fonction objectif. L’utilisation de l’optimisation sous contraintes (au moyen de l’algorithme BFGS with Bounds) est un échec, dans le sens où la contrainte est systématiquement saturée. Cela laisse donc penser que la vraisemblance, sur ces données réelles, ne possède pas d’extrémum local dans la région des valeurs positives de µ. Tentative d’explication théorique Terminons enfin en apportant un argument théorique au problème mis en évidence. En effet, les bonnes propriétés théoriques du maximum de vraisemblance (notamment son efficacité et surtout l’absence de biais dans les estimations) requièrent certaines hypothèses, dont la plus fondamentale est la bonne adéquation du modèle paramétrique d’ajustement : la loi du phénomène observé doit ici appartenir à la famille lognormale. Or ce n’est manifestement pas le cas sur cet exemple, comme en témoigne la densité empirique tracée sur la figure 4.5 : elle semble assez éloignée d’une distribution lognormale, et parait avoir plusieurs modes. F IGURE 4.5 – Densité empirique de pertes réelles de la catégorie ’dommage’ En conséquence de quoi la convergence de l’estimateur n’est plus assurée (cf. [12]), ce qui explique en partie les résultats incohérents obtenus sur l’échantillon réel, et l’inadéqua33 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN tion de la méthode du maximum de vraisemblance à l’estimation des paramètres de sévérité du risque opérationnel sous l’hypothèse lognormale. 4.4.2 Le biais de la méthode des moments généralisée La méthode des moments généralisée ne souffre pas des écueils évoqués précédemment. En effet, la fonction à optimiser (4.2 p.28) numériquement reste suffisamment régulière même avec la prise en compte du seuil de collecte. L’algorithme d’optimisation converge ainsi systématiquement, vers des valeurs positives de µ sur des données réelles. C’est en partie pour cela qu’elle a été choisie pour estimer les paramètres de sévérité des pertes opérationnelles au Crédit Agricole. Cependant, ses propriétés théoriques ne sont pas comparables à celle du maximum de vraisemblance. En effet, contrairement au maximum de vraisemblance, elle n’est qu’asymptotiquement sans biais, et converge lentement vers la vraie valeur du paramètre (comme nous pouvions déjà le pressentir au vu de la figure 4.2 page 29). Afin de mettre en évidence le problème de manière plus détaillée, nous effectuons des simulations avec un paramètre µ fixé à 5, un paramètre σ allant de 1 à 2,5 et une volumétrie comprise entre 0 et 5000 observations. Nous estimons alors les paramètres µ et σ pour calculer un écart relatif en valeur absolue, chaque écart étant moyenné sur la base de N = 100 estimations. En notant θ0 la vraie valeur du paramètre et θ̂ni ses estimations successives par MMG, nous i=1..N traçons donc pour chaque n la valeur de l’écart : θ̂n − θ0 n = θ0 Les résultats sont regroupés sur la figure 4.6. F IGURE 4.6 – Valeur absolue de l’écart relatif sur l’estimation des paramètres µ et σ par MMG Nous pouvons ainsi observer que le biais sur les paramètres est encore important même avec une volumétrie élevée : de l’ordre de 10% pour 5000 observations quand σ vaut 2. Comme en pratique les données issues du risque opérationnel dépassent rarement une taille de n = 1000, le biais résiduel est en pratique bien plus conséquent. De ce fait, comme nous le verrons dans la suite, l’estimation de la charge en capital sera d’autant moins fiable. 34 Chapitre 5 Les solutions alternatives envisagées Nous exposons dans ce chapitre la démarche scientifique suivie pour essayer de s’affranchir des différents écueils des méthodes d’estimation présentées auparavant. Elle aboutit à la définition de plusieurs méthodes alternatives dont nous présentons les détails théoriques. 5.1 Motivations et démarche scientifique Dans tout problème d’estimation statistique, la première étape est le choix du modèle sous-jacent – ici log-normal pour les pertes opérationnelles. Ensuite, l’idée est de se donner une mesure de distance entre le modèle théorique et les données réelles, et de la rendre aussi faible que possible. Par exemple, nous montrerons que la méthode du maximum de vraisemblance est équivalente à la minimisation d’une distance entre la densité réelle et celle du modèle théorique. En choisissant différentes mesures, nous obtenons autant de méthodes d’estimation statistiques aux propriétés différentes. A ce stade, il est donc naturel de se poser les questions suivantes. Est-il possible d’obtenir de meilleures méthodes d’estimation que celles présentées précédemment en jouant sur les mesures de distance à minimiser ? Sont-elles plus adaptées au cadre du risque opérationnel ? 5.2 Une autre approximation de la distance minimisée par le maximum de vraisemblance Nous montrons dans ce paragraphe que la méthode du maximum de vraisemblance est équivalente à la minimisation d’une distance particulière, que nous cherchons à approximer autrement afin d’obtenir une méthode d’estimation un peu plus robuste. 5.2.1 Introduction de la distance K-L Dans leur article de 1951 intitulé “On information and Sufficiency”, Kullback et Leibler proposent une mesure de ’distance’ entre deux densités de probabilités. Si R et S sont deux variables aléatoires continues de densités respectives r et s de même support X , alors la distance entre leurs densités peut être mesurée par : D(r, s) = D(R||S) = r(x) ln x∈X 35 r(x) dx s(x) I.S.F.A. Mémoire d’actuariat A. R ENAUDIN où D(r, s) ≥ 0, avec égalité ssi r(x) = s(x) p.p. N.B. : Il ne s’agit pas d’une distance au sens mathématique du terme car elle ne possède pas la propriété de symétrie (D(r, s) 6= D(s, r)). C’est pourquoi elle est aussi appelée mesure de divergence de Kullback-Leibler (K-L). Dans le cas simple de deux variables aléatoires normales R ∼ N (µR , σR ²) et S ∼ N (µS , σS ²) , il est possible d’illustrer cette notion sur des exemples. Nous pouvons alors calculer : 1 D(r, s) = 2 2 σR ² σR ² (µR − µS ) − ln −1 + σS ² σS ² 2σS ² Ceci peut être représenté graphiquement pour différentes valeurs des paramètres (voir pour cela la figure 5.1). F IGURE 5.1 – Distances K-L entre deux distributions normales pour différents paramètres (source : présentation de Rudolf Kulhavy, “A Kullback-Leibler Distance Approach to System Identification”, Academy of Sciences of the Czech Republic) 5.2.2 Application au maximum de vraisemblance Soient ξ1 , ξ2 , ..., ξn les variables i.i.d. représentant les pertes opérationnelles issues de la ’vraie’ distribution de densité g. Nous voulons ajuster un modèle paramétrique de densité théorique {fθ , θ ∈ Θ ⊂ R²}. La distance K-L entre ces distributions est alors : D(g, fθ ) = g(x) ln g(x) dx = fθ (x) g(x) ln g(x)dx − g(x) ln fθ (x)dx (5.1) qui dans le cas discret s’estime le plus simplement par : n n 1X 1X ln g(ξi ) − ln fθ (ξi ) n i=1 n i=1 La vraie densité g étant inconnue, minimiser (5.2) est alors équivalent à maximiser : n X ln fθ (ξi ) i=1 36 (5.2) I.S.F.A. Mémoire d’actuariat A. R ENAUDIN qui est la fonction de log-vraisemblance. 5.2.3 L’estimation par Maximum Spacing (MS) Principe théorique Reprenons les notations précédentes, en notant G et Fθ les fonctions de répartition correspondant aux densités g et fθ . Nous pouvons alors obtenir une autre approximation de la mesure K-L (équation 5.1) entre distributions empirique et théorique. En effet, en considérant les statistiques d’ordre ξ(1) 6 ξ(2) 6 ..., nous pouvons écrire au premier ordre : fθ (ξ(j) ) ≈ Fθ (ξ(j) ) − Fθ (ξ(j−1) ) ξ(j) − ξ(j−1) En effectuant la même approximation pour la densité g, alors nous obtenons une nouvelle approximation discrète de (5.1) : n+1 G(ξ(j) ) − G(ξ(j−1) ) 1 X ln n + 1 j=1 Fθ (ξ(j) ) − Fθ (ξ(j−1) ) (5.3) Minimiser cette expression est équivalent à maximiser : Sn (θ) = n+1 X ln Fθ (ξ(j) ) − Fθ (ξ(j−1) ; θ) (5.4) j=1 Le paramètre réalisant le maximum de cette expression est appelé estimateur par Maximum Spacing (littéralement : maximum d’espacement) noté θ̂M S . N.B. : En notant D(j) (θ) = Fθ (ξ(j) ) − Fθ (ξ(j−1) ) les “espacements”, nous pouvons représenter graphiquement le principe de la méthode (voir figure 5.2). En effet, l’expression (5.4) peut se réécrire : Sn (θ) = n+1 X ln h D(1) D(2) ...D(n+1) 1 i n+1 j=1 Il s’agit donc, pour effectuer l’estimation, de maximiser la moyenne géométrique des espacements D(j) (θ) ce qui revient à trouver une distribution uniformisant leur longueur. F IGURE 5.2 – Principe de l’estimation par Maximum Spacing (source : Wikipedia) 37 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Propriétés de l’estimateur obtenu S’agissant d’une méthode dérivée du maximum de vraisemblance, nous pouvons nous attendre à trouver des propriétés très proches sur les estimateurs obtenus. Sous certaines conditions de régularité, Ranneby [7] prouve la convergence de l’estimateur du Maximum Spacing, ainsi que sa normalité et son efficacité asymptotiques. Cheng et Traylor [10] montrent également que ces conditions de régularité du modèle sous-jacent sont plus larges que dans le cas du maximum de vraisemblance. Ainsi dans certains cas, l’estimation par maximum spacing produit des estimateurs convergents quand le maximum de vraisemblance ne réussit pas à estimer les paramètres (en raison de densités non bornées, par exemple dans le cas de mélanges de lois). Cette méthode d’estimation parait donc avoir de bonnes propriétés théoriques tout en étant un peu plus robuste que le maximum de vraisemblance. Néanmoins, elle présente tout de même certaines difficultés d’estimation. Les obstacles résiduels à l’estimation Nous pouvons à présent remarquer que l’expression à maximiser (5.4) pour obtenir l’estimation est sensible aux observations égales. En effet, s’il existe un j tel que ξ(j) = ξ(j−1) alors elle devient infinie. Pour éviter cet écueil, Cheng et Amin [11] proposent dans ce cas de remplacer la valeur de D(j) (θ) par la valeur de la densité fθ (ξ(j) ), étant donné que : lim ξ(j) →ξ(j−1) 1 ξ(j) − ξ(j−1) ξ(j) fθ (x)dx = fθ (ξ(j−1) ) = fθ (ξ(j) ) ξ(j−1) Lorsque la collecte recense plusieurs pertes de montant similaire (assez courant dans le cadre du risque opérationnel), les contributions à l’expression à maximiser sont donc sensiblement les mêmes que dans le cas du maximum de vraisemblance. Là encore, la prise en compte du seuil de collecte nous oblige à modifier la fonction de répartition à utiliser dans l’équation (5.4). En effet, il faut utiliser la fonction de répartition conditionnellement au seuil H, ce qui nous oblige à remplacer Fθ (x) par Fθ|H (x) = (x)−Fθ (H) P (ξ < x | ξ > H) = Fθ1−F . De ce fait, nous retrouvons le terme en 1 − Fθ (H) au déθ (H) nominateur de l’expression à minimiser, ce qui comme nous l’avons vu pose problème lors de l’optimisation. Nous nous attendons donc à retrouver certaines difficultés d’estimation rencontrées avec le maximum de vraisemblance. Illusration sur un exemple réel Afin d’avoir une idée des résultats pouvant être obtenus avec cette méthode d’estimation, nous l’appliquons sur une catégorie de pertes réelles. Il s’agit de la fraude interne collectée par une banque d’investissement, comportant 47 pertes. Notons qu’il s’agit plus précisément des pertes hors monétique (c’est-à-dire hors petits montants liés à l’utilisation frauduleuse de cartes bleues). Ces données sont donc susceptibles de comporter des pertes extrêmes. Nous recensons dans le tableau 5.1 la valeur des estimateurs obtenus avec la méthode du maximum spacing (MS) et, pour comparaison, avec les deux autres méthodes détaillées précédemment. Nous remarquons que le problème d’estimation mis en exergue pour le maximum de vraisemblance est présent. En revanche, il n’apparait pas sur l’estimateur par maximum spacing, ce qui confirme qu’il est plus robuste dans certains cas. Les méthodes MS et MMG donnent donc sur cet exemple réel des résultats qui semblent corrects à première vue. Pour avoir une première idée de l’adéquation des pertes au modèle log-normal avec les paramètres estimés par ces méthodes, nous traçons également les QQplots sur la figure 5.3. 38 I.S.F.A. Mémoire d’actuariat MS ML MMG µ̂ 4.11 -73.8 8.75 σ̂ 3.34 10.2 1.51 A. R ENAUDIN TABLE 5.1 – Résultats d’estimation sur la catégorie Fraude Interne de la banque d’investissement F IGURE 5.3 – QQ-plots log-normaux avec les paramètres estimés par MS et MMG, pour la fraude externe de la banque d’investissement Nous pouvons alors observer que l’adéquation semble meilleure avec une estimation des paramètres de sévérité par maximum spacing que par la méthode des moments généralisées. Ceci conforte l’analyse précédente (paragraphe 4.4.2 page 34) sur le biais des paramètres estimés, l’échantillon étant ici de petite taille (n = 47). Précisons enfin que l’estimation MS pour la sévérité de l’échantillon ’dommages’ (donné en exemple au paragraphe 4.4.1 page 31) donne à peu de choses près les mêmes résultats que par maximum de vraisemblance, c’est-à-dire inacceptables d’un point de vue métier. Cette méthode n’est donc pas tout à fait appropriée à notre problématique. 5.3 Minimisation de statistiques de tests Dans ce paragraphe, nous proposons d’utiliser la théorie des tests et ses statistiques comme mesures de distances à minimiser afin de tenter d’obtenir des méthodes d’estimation alternatives plus adaptées au risque opérationnel. Plusieurs statistiques couramment utilisées dans la théorie des tests sont des mesures de distance entre la fonction de répartition empirique Fn et la fonction de répartition théorique du modèle paramétrique à ajuster Fθ , qui est ici log-normal. Nous rappelons que la fonction de répartition empirique Fn est définie par : n Fn (x) = 1X 1{x6ξ(j) } n j=1 Nous noterons dans la suite zH := Fθ (H) et zj := Fθ (ξ(j) ), et comme précédemment ξ(j) j=1..n désignent les statistiques d’ordre de l’échantillon de pertes considéré. En présence d’un seuil de collecte (données censurées à gauche), les deux hypothèses testées sont Fn ∈ Fθ|H contre Fn ∈ / Fθ|H (voir le paragraphe 5.2.3 page 38 pour la définition de Fθ|H ). Deux types de tests d’ajustement, et donc de distance, vont être présentés. La première statistique de test, Kolmogorov-Smirnov (KS), se base sur la distance mesurant l’écart maximum résidant entre Fn et Fθ|H . Les autres s’appuient sur une distance quadratique entre 39 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN ces deux fonctions de répartition prenant ainsi en compte l’ensemble des écarts et non pas seulement un écart local. C’est le cas des tests de type Cramer von Mises (CvM) et Anderson Darling (AD). Nous présentons dans la suite leurs propriétés théoriques. Quelques aspects théoriques L’estimation de paramètres par minimisation de distance a été originellement proposée par Wolfowitz en 1953 ([15]). En notant δ(., .) une fonction retournant une distance entre deux fonctions de répartitions, elle peut se formaliser comme suit : s’il existe θ̂ ∈ Θ tel que δ(Fn , Fθ̂ ) = inf {δ(Fn , Fθ ), θ ∈ Θ}, alors θ̂ est appelé estimateur par minimum de distance de θ. Wolfowitz (1953) prouve la convergence de l’estimateur obtenu avec la distance δ(F1 , F2 ) = sup |F1 (x) − F2 (x)|. Différents auteurs la généralisent ensuite à plusieurs autres types de x distances, notamment des distances quadratiques pour lesquelles l’estimateur obtenu est asymptotiquement normal (cf. [16] pour un état de l’art complet). Les principaux attraits des estimateurs par minimum de distance est leur relative simplicité de mise en œuvre (moyennant un algorithme d’optimisation performant), ainsi que leurs bonnes propriétés quand le modèle théorique paramétrique conjecturé n’est pas correct, ce qui nous l’avons vu parait être le cas pour certaines séries de pertes issues du risque opérationnel comme EL5 (dommages aux actifs corporels) : se référer au graphique 1.1 page 5. Statistique KS La distance mesurée par la statistique de Kolmogorov-Smirnov est l’écart maximal entre la distribution empirique et la distribution paramétrique du modèle à ajuster : KS(θ) = √ nsup Fn (x) − Fθ|H (x) x Dans la pratique (voir [13]), nous calculons : √ + KS = nsup Fn (ξ(j) ) − Fθ|H (ξ(j) ) = j √ − KS = nsup Fθ|H (ξ(j) ) − Fn (ξ(j) ) = j √ n j 1−zH sup zH + n (1 − zH ) − zj j √ n sup zj − zH − j−1 1−zH n (1 − zH ) j Puis : KS(θ) = max KS + , KS − L’estimateur KS est alors obtenu en minimisant cette distance : θ̂KS := argmin KS(θ) θ Statistique CvM En général, les statistiques basées sur des distances quadratiques sont regroupées en une famille, dite de Cramer von Mises, et a pour forme générale en présence d’un seuil H : +∞ Fn (x) − Fθ|H (x) 2 ψ(Fθ|H )dFθ|H (x) Q(θ) = n H où ψ est une fonction de pondération des différentes observations. Dans le cas d’une pondération uniforme (ψ(x) = 1), nous obtenons une distance quadratique mesurant l’écart moyen entre distributions empirique et théorique, appelée statistique de Cramer Von Mises. En discrétisant l’intégrale selon les observations et en effectuant des 40 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN changements de variables (se reporter à [13] pour les détails), nous pouvons démontrer que cette statistique peut également s’écrire : W 2 (θ) = n n X X n nzH 1 1 2 + + (1 − 2j)zj + (zj − zH ) 3 1 − zH n(1 − zH ) j=1 (1 − zH )2 j=1 C’est cette forme que nous utiliserons en pratique pour minimiser cette distance et obtenir : θ̂CV M := argmin W 2 (θ) θ Statistique AD up La statistique d’Anderson Darling est obtenue en changeant la fonction de pondération ψ (ψ = Fθ|H 1 − Fθ|H ) afin d’attribuer plus de poids aux observations en queues de distribution (queues gauche et droite). L’objectif de gestion du risque opérationnel étant de se prémunir face aux pertes extrêmes exceptionnelles, c’est l’ajustement de la queue droite de la distribution qui revêt une importance particulière. C’est une version légèrement modifiée de −2 la statistique AD que nous utiliserons donc, avec une pondération ψ(Fθ|H ) = 1 − Fθ|H qui attribue un poids plus important aux pertes extrêmes, et un poids moindre aux pertes moins sévères. Nous la nommerons AD up et nous pouvons montrer qu’elle vaut ici (voir encore [13] pour les étapes du calcul) : 2 ADup (θ) = −2n ln(1 − zH ) + 2 n X ln(1 − zj ) + j=1 n 1 − zH X (1 + 2(n − j)) n j=1 1 − zj Comme précédemment, nous définissons : 2 θ̂ADup := argmin ADup (θ) θ 5.4 Minimisation d’une distance inter-quantiles Nous proposons ici une dernière mesure de distance qui pourrait être minimisée afin d’estimer les paramètres de sévérité du risque opérationnel. Cette méthode d’estimation ainsi que ses propriétés théoriques ont été originellement présentées par LaRiccia, et LaRiccia et Wehrly [9]. 5.4.1 Principe de la méthode Le principe de cette approche est similaire à l’analyse des QQ-plots, outils graphiques permettant de juger de l’adéquation entre des estimations et des données réelles et consistant à tracer les quantiles empiriques (issus des données), en fonction des quantiles théoriques (issus du modèle paramétrique ajusté). Lorsque l’adéquation est parfaite, les points observés se situent le long de la première bissectrice du repère. Il s’agit donc d’optimiser l’estimation de manière à ce que les quantiles théoriques les plus proches possibles des quantiles empiriques. Pour un échantillon de n pertes ξ1 , . . . , ξn collectées au-delà d’un seuil H, nous nous intéressons à la distance quadratique entre k quantiles empiriques qb(p1 ), . . . , qb(pk ) et quantiles théoriques Fθ−1 (pi ), où Fθ−1 est la fonction de répartition inverse et θ le vecteur de paramètres de la loi à ajuster. La distance inter-quantiles s’écrit classiquement : Q2 (θ, p, ω) = k X 2 ωi qb(pi ) − Fθ−1 (pi ) i=1 41 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN p = (p1 , . . . , pk )0 est le vecteur des niveaux des quantiles à ajuster, avec 0 < p1 < . . . < pk < 1 ω = (ω1 , . . . , ωk )0 est le vecteur des poids attribués aux différents termes d’ajustement. Les quantiles empiriques qb sont construits à partir du vecteur de pertes de l’échantillon, en fonction du vecteur p = (p1 , . . . , pk )0 . Le ième quantile empirique correspond à la ième perte de l’échantillon trié si le nombre est entier, et à une interpolation linéaire entre les deux pertes les plus proches sinon. Comme le montre la figure 5.4 ci-dessous, cela permet de ”lisser” les quantile empiriques et donc la fonction à optimiser, ce qui produit de meilleurs résultats lors de l’optimisation, notamment lorsque le nombre de données disponibles est faible. F IGURE 5.4 – Fonctions quantiles empiriques (en bleu) et quantiles empiriques interpolés (en rouge) ; illustration sur un échantillon de fraude monétique L’objectif de l’estimation est donc de trouver le paramètre θ = θbQD minimisant la distance inter-quantiles Q2 (θ, p, ω), afin d’obtenir une bonne adéquation entre les pertes observées (quantiles empiriques) et les pertes estimées par le modèle paramétrique (quantiles théoriques). 5.4.2 Pondération de la distance Afin de limiter l’instabilité numérique liée aux termes de la sommes liés à des quantiles extrêmes dans l’expression de la distance, nous choisissons de considérer les écarts relatifs entre quantiles en utilisant l’inverse du quantile empirique en guise de pondération : ωi = 1 qb(pi )2 Ceci permet de relativiser l’importance de chaque niveau de quantile utilisé pour la minimisation de la distance et d’éviter les problèmes numériques lors de l’optimisation. 5.4.3 Prise en compte des agrégats Comme dans la MMG, il est également possible de prendre en compte les agrégats. Si les pertes ξi sont chacune constituées de κi évènements distincts (pour une perte concernant b∗ un unique évènement), nous considérons alors les quantilesempiriques q (pi ) obtenus en considérant l’échantillon « réduit » (ξ1∗ , . . . , ξn∗ ) = alors : Q2 (θ, p) = k X i=1 ξ1 ξn κ1 , . . . , κn . La distance-quantile devient 2 1 b∗ (pi ) − Fθ−1 (pi ) q qb(pi )2 42 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Remarque : la normalisation par les quantiles empiriques hors agrégats 1/b q (pi )2 est conservée même en présence d’agrégats, ceci ayant pour effet de limiter l’impact des pertes composées de plusieurs évènements. 5.4.4 Prise en compte du seuil de collecte Nous introduisons une dernière modification à la méthode afin de tenir compte du seuil de collecte des pertes opérationnelles, noté H. Cela se traduit par une transformation des niveaux de quantiles à ajuster. En effet, le quantile de niveau α de l’échantillon tronqué correspond en fait à un niveau de quantile αH de la distribution théorique complète, avec αH > α . En utilisant la relation liant la distribution conditionnelle Fθ|H à la distribution complète Fθ : Fθ|H (x) = Fθ (x) − Fθ (H) 1 − Fθ (H) nous déduisons le lien entre αH et α : αH = α + 1 − α Fθ (H). (5.5) En conséquence, nous modifions les quantiles théoriques à ajuster, ce qui implique que l’expression de la distance à minimiser est : Q2 (θ, p, H) = k X i=1 2 1 b∗ (pi ) − Fθ−1 pi + (1 − pi )Fθ (H) q qb(pi )2 Néanmoins, le paramètre θ intervient doublement dans cette formulation et cela est source de difficultés numériques lors de l’optimisation. Afin de réduire cette instabilité, nous décidons d’utiliser un estimateur de dans le terme correcteur Fθ (H) . L’estimateur retenu est obtenu par minimisation d’une distance-quantile qui tient compte du seuil de collecte en décalant linéairement les quantiles empiriques vers l’origine : qb∗ (pi ) ← qb∗ (pi ) − (1 − pi )H Cette modification permet d’utiliser des quantiles théoriques de la distribution lognormale non tronquée et donc d’éviter toute instabilité numérique dans la minimisation de la distance : θe = arg min θ k X i=1 2 1 b∗ (pi ) − Fθ−1 pi + (1 − pi )H q qb(pi )2 Une fois θe ainsi déterminé, l’estimateur θbQD du paramètre de la distribution de sévérité est finalement obtenu en minimisant la distance suivante : e 2 (θ, p, H) = Q k X i=1 5.4.5 2 1 b∗ (pi ) − Fθ−1 pi + (1 − pi )F e(H) q θ qb(pi )2 Choix des différents paramètres Dans la distance inter-quantiles introduite au paragraphe précédent, il reste plusieurs éléments à paramétrer. Il s’agit notamment de déterminer le nombre de quantiles à examiner ainsi que le choix de la répartition des niveaux de quantiles. Ergashev [14] fixe des paramètres arbitraires pour effectuer l’estimation dans le cadre d’une loi de sévérité logStudent mais ne propose pas de justifications. 43 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Nous nous proposons donc d’étudier le choix de ces paramètres dans le cadre d’une distribution de sévérité lognormale. Dans un premier temps, nous faisons le choix d’une répartition uniforme des quantiles à ajuster dans l’échantillon. La figure 5.5 illustre les pertes ordonnées d’un échantillon superposées avec les quantiles intervenant dans l’estimation dans le cas d’une répartition uniforme, sur des pertes réelles provenant du crédit à la consommation. F IGURE 5.5 – Quantiles choisis uniformément (en rouge) dans un échantillon réel (montants de pertes en échelle logarithmique) Choix du nombre de quantiles à ajuster Nous choisissons k, le nombre de quantiles à ajuster, inférieur ou égal à n de manière à ne faire porter l’estimation que sur k pertes de l’échantillon collecté de taille n. Afin d’avoir une première idée de l’influence du nombre de quantiles à retenir dans l’estimation, nous calculons en fonction de k les paramètres de sévérité par la méthode QD présentée précédemment sur des échantillons simulés. Nous simulons deux échantillons log-normaux de paramètres LN (8, 2) et LN (12, 1.5), censurés au seuil H, de tailles n = 100 et n = 1000, puis nous effectuons l’estimation. Les résultats sont regroupés sur la figure 5.6. F IGURE 5.6 – Estimations de µ (bleu) et σ (vert) sur données simulées LN (8, 2) et LN (12, 1.5) de tailles n = 100 (en haut) et n = 1000 (en bas) en fonction du nombre de quantiles utilisés Les estimations semblent être très vite stables vis-à-vis du paramètre k. Pour la suite, nous ferons donc le choix assez naturel de prendre en compte la moitié des données pour l’estimation, soit k = bn/2c. 44 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Répartition exponentielle des quantiles Le choix de la répartition uniforme des quantiles n’est pas nécessairement adapté à la problématique du risque opérationnel. En effet, comme le montre la figure 5.5 dans le cas d’une répartition uniforme des quantiles, les pertes extrêmes ne sont pas suffisamment prises en compte dans l’estimation : le corps de la distribution est mieux représenté que la queue. Or ce sont pourtant les valeurs extrêmes qui influent davantage sur la valeur de la CaR. Pour y remédier, nous nous proposons de choisir une répartition exponentielle des quantiles afin de mieux ajuster les quantiles extrêmes. C’est ce que préconise Ergashev ([14]) en répartissant les quantiles avec une fonction de la forme : (exp) pi =C 1 − exp(−im/k) 1 − exp(−m) où : C est une constante dans [0, 1] matérialisant le niveau du dernier quantile à ajuster m un entier positif dont la valeur influe sur la répartition des niveaux de quantiles : plus cette valeur augmente, plus les quantiles à ajuster sont concentrés en queue de distribution (cf. figure 5.5), et le cas de la répartition uniforme s’obtient pour m −→ 0. Nous fixerons dans la suite pour un échantillon de n pertes la constante C = 1 − 1/2n. Cela permet d’avoir un niveau de quantile final cohérent avec la taille de l’échantillon, et de prendre en compte la dernière perte dans l’estimation. En effet, le dernier niveau de quantile est alors systématiquement compris entre l’avantdernière et la dernière perte de l’échantillon trié. Du fait de l’interpolation entre les quantiles empiriques la dernière perte sera donc en partie prise en compte dans l’estimation (voir le dernier quantile choisi en rouge figure 5.7) . Cela apporte une certaine robustesse à la méthode en la prémunissant de possibles problèmes numériques, tout en lui apportant une précision supérieure aux quantiles empiriques sans interpolation qui ne prennent pas du tout en compte la dernière perte. F IGURE 5.7 – Quantiles exponentiellement répartis (en rouge) dans un échantillon trié de la catégorie ’exécution’ avec m = 5 (montants en échelle logarithmique) Reste donc la question du paramètre de répartition des quantiles, qu’Ergashev [1] fixe à m = 5 sans justification. Nous nous proposons donc d’étudier son influence dans le paragraphe suivant. Influence du paramètre de répartition m des quantiles à ajuster Nous regardons à présent l’influence de cette variable sur l’estimation des paramètres de sévérité. Nous choisissons pour cela les 12 échantillons réels de pertes collectées entre 2005 et 2009 ayant présenté des critères d’ajustement jugés non satisfaisant lors du backtesting 1 1. Des indicateurs sont produits par la banque à chaque exercice annuel afin d’évaluer la pertinence du modèle (notamment la précision des estimations, la stabilité et la robustesse des paramètres sur des fenêtres glissantes de 5 ans). Cela permet de confronter les valeurs prédites par le modèle à la réalité de l’année écoulée (par exemple en terme de nombre de pertes ou de montant attendu), et de procéder à des ajustements le cas échéant 45 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 2009. Leurs caractéristiques 2 sont données dans le tableau 5.2. Nous pouvons donc considérer ces échantillons comme hétérogènes, et/ou ne présentant pas de bonnes propriétés de log-normalité. Cas 1 2 3 4 5 6 7 8 9 10 11 12 Entité Banque de détail 1 Banque de détail 1 Banque de détail 1 Banque de détail 1 Banque de détail 2 Banque de détail 2 Banque d’investissement Asset Management Crédit conso 1 Crédit conso 1 Crédit conso 2 Crédit conso 2 Catégorie EL2M EL4 EL5 EL7 EL4 EL7 EL7 EL7 EL2 EL7 EL2 EL7 Seuil de collecte 1 1000 1000 1000 1000 1000 1000 1000 1 150 1 1 Nb pertes 22 164 5 245 3 691 9 284 1 121 5 541 7 913 1 520 2 011 107 1 217 226 TABLE 5.2 – Caractéristiques des échantillons de pertes mis en évidence dans le backtesting 2009 Sur chaque échantillon, nous effectuons l’estimation par QD (traits pleins) en fonction du paramètre m, que nous faisons varier de m ≈ 0 jusqu’à m = 8 (voir figure 5.8). F IGURE 5.8 – Influence du paramètre m sur l’estimation des paramètres de sévérité (µ en bleu, σ en vert) Comme il était possible de le prévoir, on remarque que les valeurs élevées du paramètre m fournissent généralement des estimations moins élevées du paramètre µ et plus élevées du paramètre σ. Mais l’influence de cette variable n’est pas décisive dans l’estimation des paramètres. Toutefois, il parait naturel de choisir une valeur de pour laquelle les quantiles sont concentrés en queue de distribution. Cela permet de mieux ajuster les quantiles extrêmes (et donc d’aboutir à des CaR plus précises), et de compenser l’effet des pondérations introduites au paragraphe 5.4.2 (p.42) qui ont tendance à uniformiser l’influence des quantiles 2. Pour raisons de confidentialité, des pertes ont été aléatoirement supprimées dans chacun des échantillons. 46 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN dans l’estimation. Le choix de m = 4 parait alors approprié, et a été vérifié empiriquement comme celui amenant le meilleur ajustement sur ces 12 catégories difficiles (en terme de tests d’adéquation et QQ-plots ). Au final, pour un échantillon de pertes de taille n, le vecteur des niveaux des quantiles à ajuster est donc constitué de la manière suivante : jnk 1 1 − exp (−4i/k) (5.6) pi = 1 − , avec k = 2n 1 − exp(−4) 2 5.4.6 Récapitulatif des étapes de l’estimation Comme expliqué précédemment, l’estimation par QD dans le cadre du risque opérationnel se fait finalement de la manière suivante : 1. Collecte des pertes ξ1 , . . . , ξn au dessus d’un seuil H 2. Création du vecteur des niveaux de quantiles p de taille k, répartis exponentiellement selon (5.6) 3. Calcul d’un estimateur θe de θ avec : bn/2c θe = arg min θ X i=1 −1 2 1 ∗ b q (pi ) − Fθ pi + (1 − pi )H qb(pi )2 4. Utilisation de cet estimateur pour obtenir l’estimateur final : bn/2c θbQD = arg min θ 5.5 X i=1 2 1 b∗ (pi ) − Fθ−1 pi + (1 − pi )F e(H) q θ qb(pi )2 Premier bilan A ce stade de l’étude, nous avons introduit et présenté 5 méthodes d’estimation alternatives au maximum de vraisemblance (ML) et à la méthode des moments généralisée (MMG) : – Maximum Spacing (MS) – Kolmogorov-Smirnov (KS) – Cramer von Mises (CvM) – Anderson-Darling “up” (ADup) – Quantile-Distance avec répartition exponentielle des quantiles (QDexp) Cependant, nous avons aussi vu que toutes ne sont pas adaptées à la réalité du risque opérationnel. Afin d’avoir un premier aperçu de leur comportement, nous réalisons un premier test sur les échantillons réels problématiques du backtesting 2009 (voir 5.4.2 page 42). Nous ne rapporterons pas ici la valeur exacte des paramètres estimés, n’ayant pas de valeur de référence à laquelle les comparer, mais il s’agit de répertorier les cas où la phase d’optimisation a conduit à des estimations irréalistes des paramètres (i.e. : caractérisés par des estimations de µ négatives) ainsi que la convergence de l’algorithme numérique associé. Ainsi, le tableau 5.3 recense pour chaque méthode le nombre d’estimation(s) problématique(s) ainsi que le taux de convergence de l’algorithme d’optimisation sur les 12 échantillons testés. Nous remarquons de suite que bien que la convergence de l’algorithme soit pratiquement toujours assurée (à part dans le cas de la minimisation de la statistique KS), beaucoup de méthodes fournissent pourtant des estimations incohérentes : paramètre µ̂ négatif, et σ̂ 47 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Méthode d’estimation # {µ̂ 6 0} Convergence MLE 5 11/12 MPS 3 11/12 KS 5 9/12 CvM 3 12/12 ADup 6 12/12 QD 0 12/12 MMG 0 12/12 TABLE 5.3 – Cohérence et convergence des différentes méthodes d’estimation sur les 12 échantillons issus du backtesting 2009 associé très élevé. Seules la méthode des moments généralisés (MMG) et celle se basant sur la distance quantile présentée précédemment (QD) donnent des résultats satisfaisants, aussi bien en terme de convergence que de cohérence des estimations. Ces deux critères étant des conditions sine qua none pour l’utilisation pratique d’une méthode d’estimation dans le cadre du risque opérationnel, nous ne conserverons dans la suite que les deux méthodes MMG et QD. 48 Chapitre 6 Comparaison théorique des méthodes d’estimation retenues Après avoir testé différentes méthodes sur échantillons réels dans le chapitre précédent, ce chapitre offre un aperçu du comportement de la méthode distance-quantile (QD) en environnement simulé. Deux types de simulations sont réalisés : 1. Modèles simples : simulations effectuées selon des lois lognormales pour différentes valeurs de µ et σ : la loi à ajuster correspond donc à la loi dont les données sont issues. Cela permet d’étudier les propriétés théoriques des estimateurs. 2. Modèles hybrides : simulations effectuées selon un mélange de deux lois lognormales LN (µ1 , σ1 ) et LN (µ2 , σ2 ) . Cela permet de contrôler les propriétés de robustesse, d’effectuer un calcul de charge en capital avec les paramètres estimés et de le comparer à la valeur attendue, par simulations de Monte Carlo. Par soucis de cohérence vis-à-vis de la réalité, les données que nous simulons sont ensuite tronquées à gauche d’un seuil H que nous préciserons. 6.1 Modèles simples Les simulations sont effectuées selon une loi lognormale LN (µ, σ) et les estimations de paramètres sont moyennées sur N = 1000 simulations. Afin de représenter des cas de figures communément observés sur des cas réels, plusieurs jeux de paramètres sont utilisés et chaque échantillon est constitué de n = 200 pertes : modèle 1 2 3 4 5 6 7 8 9 10 11 12 µ 5 5 5 8 8 8 10 10 10 12 12 12 σ 1 2 3 1 2 3 1 2 3 1 2 3 Les modèles ainsi simulés permettent alors de déterminer différents indicateurs concernant le biais, la précision et la stabilité des estimations par QD et par MMG. 6.1.1 Etude du biais Nous considérons dans cette partie les échantillons présentés précédemment qui ont −1 ensuite été censurés au seuil H = min 1000, Fµ,σ (0.3) . Cela permet d’avoir un seuil qui ne censure qu’environ 30% des données des échantillons de sévérité faible, tandis que le seuil réaliste de 1000C sera choisi pour les échantillons dont la sévérité est suffisamment importante. 49 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Nous rappelons que le biais d’un estimateur θbn de θ est défini par b θbn = E θbn − θ. Cette espérance sera déterminée en moyennant les estimateurs obtenus sur N estimations distinctes : N 1 X bi b θ −θ b θn = N i=1 n Les valeurs de biais sont ainsi déterminées pour chacune des deux méthodes et pour les deux paramètres du modèle log-normal. La figure 6.1 représente les biais relatifs b θbn /θ. Ces valeurs sont majoritairement positives pour le paramètre µ (partie supérieure de la figure) et négatives pour σ (partie inférieure). F IGURE 6.1 – Biais relatifs des estimateurs de µ (en haut) et σ (en bas) pour les 12 modèles simulés, avec N=1000 simulations La première observation qui ressort de cette figure est que, sur les différents cas simulés, la méthode QD présente un faible biais, qui est significativement moins important que la méthode MMG et ce pour chacun des deux paramètres de sévérité et quelque soit l’échantillon considéré. En outre, cela confirme que l’approximation effectuée pour la prise en compte du seuil de collecte (voir §5.4.4 page 43) est satisfaisante. Par ailleurs, les deux méthodes partagent la caractéristique de fournir des estimateurs d’autant plus biaisés que le utilisé pour simuler le modèle est important. 6.1.2 Précision des estimations Cette partie présente deux indicateurs communément utilisés pour évaluer la précision des estimations obtenues par les deux méthodes. Le premier des deux indicateurs déterminé pour chacun des 12 modèles simulés, est la racine de l’erreur quadratique moyenne relative (relative root mean square error) : "N #1/2 2 1 X i θ̂ − θ /N R-rmse = θ i=1 n Le second indicateur reprend l’idée du premier en utilisant une échelle logarithmique : 50 I.S.F.A. Mémoire d’actuariat N X L-rmse = ln i=1 θ̂ni θ !!2 A. R ENAUDIN 1/2 /N Les erreurs de sous-estimation reçoivent ainsi plus de poids que les erreurs de surestimation, contrairement au précédent indicateur où ces erreurs ont des poids symétriques. Ceci est adapté au cadre du risque opérationnel dans le sens où mobiliser un capital trop important pour sa couverture est moins gênant que de ne pas en mobiliser assez. La figure 6.2 représente les résultats obtenus par simulations pour chacun des deux indicateurs. (a) R-rmse (b) L-rmse F IGURE 6.2 – Indicateurs de précision pour µ (à gauche) et σ (à droite) sur les 12 modèles simulés, avec N=1000 simulations 6.1.3 Stabilité des estimations Afin d’évaluer la stabilité des estimations fournies par les deux méthodes, un coefficient de variation relatif est déterminé à partir des résultats précédents. À partir des estimateurs θbn1 , . . . , θbnN obtenus sur N estimations distinctes, il s’agit du rapport entre l’écart-type et la moyenne des estimations : 1 ν= mn " N 2 1 X bi θn − mn N i=1 #1/2 , avec mn = N 1 X bi θ N i=1 n Les graphiques de la figure 6.3 montrent que dans la quasi-totalité des cas, et notamment en ce qui concerne l’estimation de σ, les estimations effectuées via la méthode QD sont plus stables. 51 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 6.3 – Coefficients de variation obtenus pour les 12 modèles pour µ (à gauche) et σ (à droite), avec N=1000 simulations 6.2 6.2.1 Modèles hybrides Simulations des données Dans cette section, les simulations sont basées sur des modèles mélanges log-normaux. Chaque vecteur de n pertes est simulé selon une loi lognormale LN (µ1 , σ1 ) en proportion p, et une loi LN (µ2 , σ2 ) en proportion 1 − p. Ce choix permet de se rapprocher de la réalité des données collectées. En effet, nous rappelons que le boxplot tracé en 1.1 page 5 suggère que les pertes opérationnelles de certaines catégories sont hétérogènes et semblent posséder deux groupes de pertes différents, dont des extrêmes. Ce modèle parait donc plus réaliste pour ajuster la sévérité des pertes. De plus, cela permet de tester la robustesse des méthodes d’estimations en ajustant un modèle paramétrique qui n’est cette fois pas le vrai. La valeur de l’estimateur obtenu n’est pas directement interprétable en tant que telle mais elle peut toutefois être utilisée afin de calculer une charge en capital, valeur qui peut être comparée à la valeur calculée par Monte-Carlo avec les vrais paramètres du mélange. Les caractéristiques des modèles retenus sont recensés dans le tableau ci dessous : 6.2.2 Modèle µ1 σ1 p µ2 σ2 1 5 2 0.5 10 1 2 6 1 0.5 7 2 3 8 1 0.5 8 2 Estimations Les estimations menées sur ces modèles hybrides fournissent les résultats suivants : 6.2.3 Modèle µ bQD σ bQD µ bM M G σ bM M G 1 7.71 2.03 8.53 1.64 2 7.22 1.82 7.64 1.59 3 7.75 1.74 7.85 1.72 Calculs de charges en capital Une fois les paramètres estimés par chaque méthode (ayant donc obtenu µ̂, σ̂, ainsi que le paramètre de fréquence λ̂ corrigé comme expliqué au paragraphe 4.2.2 page 27), il est possible de calculer la charge en capital correspondante en effectuant NM C =5 millions de simulations Monte-Carlo. Le principe est détaillé dans l’algorithme 6.1. Il est ensuite de comparer les résultats obtenus à la CaR attendue, elle aussi calculée par simulations de Monte-Carlo. C’est l’objet du tableau 6.1. 52 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Algorithme 6.1 Simulations de Monte-Carlo pour le calcul de CaR Pour i=1..NM C { Simuler NP ∼ P λ̂ Pour j=1..NP { Simuler ξ[j] ∼ LN (µ̂, σ̂) cum_func[i] = cum_func[i] + ξ[j] } } tri_ascendant(cum_func) retourner cum_func[0.999*NM C ] //quantile empirique niveau 99.9% Modèle 1 2 3 CaR réelle 12.2 4.48 12.3 CaRQD 11.8 (-4%) 3.09 (-30%) 5.45 (-56%) CaRMMG 5.50 (-55%) 1.86 (-58%) 5.42 (-57%) TABLE 6.1 – Valeurs des CaRs (M C) calculées sur modèles hybrides et écart relatif par rapport à la CaR réelle Nous remarquons alors que la méthode QD fournit des résultats bien plus proches de la vraie CaR que la CaR issue des estimations par la méthode MMG. 53 Troisième partie Diversification et agrégation des risques opérationnels : détermination d’un capital économique 54 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Préliminaires Une fois la charge en capital au titre du risque opérationnel calculée comme expliqué dans la partie précédente pour la ligne métier de l’entité considérée, se pose désormais la question d’évaluer la charge en capital pour une entité complète ainsi que pour un ensemble d’entités. Faire la simple somme des charges en capital obtenues – ce qui sous-entendrait une corrélation parfaite entre les lignes métiers des entités – ne tiendrait pas compte d’une dépendance réaliste entre les risques et mobiliserait de fait des capitaux trop importants. La position du régulateur est la suivante (article 366-3 de l’arrêté transposant Bâle II en France) : “La Commission bancaire peut autoriser la prise en compte des effets de corrélations entre les estimations de pertes pour risque opérationnel lorsque l’établissement assujetti démontre que son système d’analyse et de mesure de ces corrélations repose sur des principes robustes et qu’il est mis en œuvre de manière intègre. Ce système prend en compte l’incertitude que comporte toute estimation de corrélations, notamment en période de crise. L’établissement assujetti valide ses hypothèses de calcul de corrélations au moyen de techniques quantitatives et qualitatives appropriées.” Cette appréciation reste donc assez vague, et il revient à l’établissement bancaire de justifier clairement ses choix en matière de prise en compte de la dépendance pour la mesure de son risque opérationnel. Comme le soulignent Frachot et al. ([6]) il existe deux sources de corrélations dans le modèle LDA, qui correspondent aux deux dimensions du modèle : sévérité et fréquence. La corrélation sur les sévérités est pourtant délicate à envisager compte tenu des hypothèses du modèle en elles-mêmes qui imposent l’indépendance des sévérités des pertes au sein d’une même catégorie de risque, et qui serait difficilement compatible avec une corrélation des sévérités entre deux types de risques. L’hypothèse de corrélation sur la fréquence est pour sa part assez naturelle et est plus facile à prendre en compte. Historiquement, il est par exemple possible d’observer que le nombre de fraudes externes est faible quand le nombre de fraudes internes est élevé, et inversement. Dans le modèle, cette corrélation des fréquences se répercute alors sur les corrélations des pertes annuelles (ou pertes agrégées) : ( cor(ξ (1) , ξ (2) ) = 0 cor(N1 , N2 ) 6= 0 =⇒ cor(`1 , `2 ) 6= 0 où `i est la perte annuelle convoluée de la sévérité ξ (i) et de la fréquence Ni . Nous présentons donc dans cette partie, après avoir détaillé les enjeux de la diversification et de l’allocation du capital, deux approches permettant de modéliser la dépendance entre les pertes annuelles afin d’agréger les charges en capital. La première repose sur une hypothèse de normalité des pertes annuelles, tandis que la seconde utilise la théorie des copules. Nous illustrons enfin ces méthodes sur le cas des différentes lignes métiers des entités du Groupe Crédit Agricole S.A. et la diversification de leur risque opérationnel, dans le cadre de l’ICAAP (pilier 2 de Bâle II, voir §2.3 p.11). 55 Chapitre 7 Enjeux et éléments théoriques 7.1 Agrégation des risques et allocation : des enjeux importants Afin de se conformer à la règlementation Bâle II, les établissements de bancassurance doivent non seulement déterminer un capital économique au titre des risques opérationnels au niveau groupe mais aussi allouer ce capital entre ses différents métiers, ce qui a donc un impact direct sur la rentabilité perçue de ses activités. Un enjeu de l’approche avancée (AMA) est de prendre en compte les corrélations, c’està-dire les interactions ou absences d’interactions entre les entités elles-mêmes, ainsi qu’avec leurs environnements respectifs (par exemple les risques transverses comme les catastrophes naturelles qu’elles subissent simultanément, ou les risques spécifiques qu’elles subissent séparément). L’approche AMA doit donc faire apparaitre une réduction (du moins une variation espérée à la baisse) des fonds propres résultant des effets de synergies de la consolidation. Or toute méthode de répartition des fonds propres s’appuyant sur des coefficients ne dépendant que des caractéristiques propres à chaque entité - manière la plus naturelle de faire - ne peut tenir compte de leurs interactions et ne peut donc pas répondre à cet enjeu. Par exemple, une ventilation au prorata de CaR ou du PNB de chaque entité n’est pas appropriée car elle ne tient pas compte de la dépendance existant entre ces entités. Pour un bon pilotage, une bonne analyse des performances ou une prise de décision pertinente, il est indispensable que la méthode d’allocation retenue soit fondée sur la contribution apportée par chaque entité à la réduction globale des risques : une entité contribuant plus à la réduction des fonds propres du groupe doit être avantagée par rapport aux autres. A défaut, le risque est de biaiser les analyses de performances et d’être amené à prendre de mauvaises décisions, comme l’illustre l’exemple suivant. Un exemple introductif Pour fixer les idées et comprendre les enjeux de l’agrégation et l’allocation des charges en capital, considérons l’exemple simple d’un groupe composé de trois entités différentes, notées E1, E2 et E3. Supposons que le tableau qui suit recense les capitaux calculés au titre du risque opérationnel pour chaque entité ainsi que leur résultat sur l’année. Il contient aussi la valeur de la charge en capital au niveau du groupe, établie par agrégation en tenant compte de la dépendance entre les différentes entités, méthode que nous détaillerons dans la suite du mémoire. 56 I.S.F.A. Mémoire d’actuariat Entité Résultat (M C) CaR (MC) E1 17 200 E2 17 200 E3 14 200 (E1,E2) 400 A. R ENAUDIN (E2,E3) 280 (E1,E3) 280 (E1,E2,E3) 480 Afin de se rendre compte des effets de diversifications que peut apporter chaque entité, nous donnons également que la valeur de la CaR de chacun des couples d’entité obtenue par agrégation. Cet exemple simple permet de remarquer que l’entité E3, compte tenu de sa corrélation avec les autres entités, contribue plus que les autres à la diversification de la CaR totale. Selon l’idée exprimée au paragraphe précédent, le montant alloué la concernant devrait alors être plus faible que pour les deux autres. Or une simple allocation au prorata de la CaR de chacune des entités donne le résultat du tableau 7.1. Entité Capital éco. alloué (M C) Rentabilité des fonds propres E1 160 10.6% E2 160 10.6% E3 160 8.75% TABLE 7.1 – Allocation entre les 3 entités considérées au prorata de leur CaR Cette allocation élémentaire a donc pour effet d’attribuer le même capital économique à toutes les entités, et donc d’envisager au vu des chiffres précédent que l’entité E3 est la moins rentable. En effectuant l’allocation selon une méthode plus appropriée (dite “cohérente” et qui tient compte des variations de capital obtenues lorsqu’une entité est consolidée avec d’autres que nous détaillerons dans la section suivante), nous obtenons des résultats bien différents comme le montre le tableau 7.2. Entité Capital éco. alloué (M C) Rentabilité des fonds propres E1 180 9.45% E2 180 9.45% E3 120 11.67% TABLE 7.2 – Allocation entre les 3 entités considérées selon une méthode cohérente Contrairement au cas précédent, l’entité E3 est cette fois considérée comme la plus rentable de toutes. Il semble donc essentiel dans ce contexte de prendre en compte la contribution à la diversification du risque à sa juste valeur, sans quoi il est possible d’aboutir à des analyses de performance erronées. C’est notamment l’objet de la section suivante qui expose de manière théorique les propriétés souhaitables des mesures de risque et des méthodes d’allocation à utiliser. 7.2 7.2.1 Mesures de risque Définition Comme son nom l’indique, une mesure de risque permet de quantifier le danger inhérent à un risque représenté par une valeur aléatoire X. Plus formellement, une mesure 57 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN de risque est une fonctionnelle % qui attribue à un risque X une valeur %(X) positive et éventuellement infinie. %(X) est généralement assimilé au capital dont la banque doit disposer pour faire face aux éventuelles pertes résultant du risque X. 7.2.2 Propriétés désirables Afin d’être utile dans ses applications, il est d’usage qu’une mesure de risque vérifie un certain nombre de propriétés : 1. (Sous-additivité). Soient deux risques X1 et X2 . La mesure % est dite sous-additive si %(X1 + X2 ) 6 %(X1 ) + %(X2 ). Cette propriété est synonyme de réduction de risque par diversification, dont l’effet est alors mesuré par la quantité %(X1 ) + %(X2 ) − %(X1 + X2 ) > 0, représentant l’économie de capital réalisée en couvrant simultanément les risques X1 et X2 . 2. (Homogénéité). Soient un risque X et a un scalaire positif. La mesure % est homogène si %(aX) = a%(X). Cette propriété peut-être vue comme une invariance par rapport aux unités monétaires (un changement d’échelle sur le risque fait subir la même transformation au capital). 3. (Monotonicité). Soient deux risques X1 et X2 tels que P(X1 6 X2 ) = 1. La mesure % est monotone si %(X1 ) 6 %(X2 ). Cette propriété traduit simplement le fait qu’il faut plus de capital lorsque le risque devient plus sévère. 4. (Invariance par translation). Soient un risque X et a un scalaire. La mesure % est invariante par translation si %(X + a) = %(X) + a. Cela garantit alors que %(X − %(X)) = 0. La vérification de ces quatre premières propriétés amène à la notion de mesure de risque cohérente, comme introduit par Artzner et al. (1999). Cependant en actuariat, il est également souhaitable que les mesures de risque satisfassent les trois propriétés suivantes. 5. (Marge de risque non excessive). Pour un risque X donné, si X 6 xmax alors %(X) 6 xmax . Ceci veut dire qu’il n’est pas nécessaire de détenir un capital en excédent du montant maximal que peut prendre une perte pour couvrir ce risque. 6. (Marge de risque non négative). Pour un risque X donné, nous devons avoir %(X) > E[X]. Le capital requis doit ainsi excéder les pertes espérées (sous peine de ruine pour une compagnie d’assurance, par exemple). 7. (Marge de risque justifiée). Soit a une constante quelconque. Alors nous devrions avoir %(a) = a. Nous présentons dans la suite des exemples de mesures couramment utilisées en gestion des risques. 58 I.S.F.A. 7.2.3 Mémoire d’actuariat A. R ENAUDIN La mesure VaR (Value at Risk) C’est traditionnellement la mesure la plus utilisée en matière de gestion des risques et sciences actuarielles : elle apparait explicitement dans les textes règlementaires (Bâle II, Solvabilité II). Pour 0 6 α 6 1, la VaR de niveau α associée à la variable aléatoire X est définie de la manière suivante : −1 V aRα (X) = FX (α), −1 où FX désigne la fonction de répartition inverse (éventuellement généralisée dans le cas discontinu) de la v.a X. Parmi les propriétés précédentes, cette mesure ne vérifie pas la propriété de sous-additivité : il peut arriver que la diversification conduise à une augmentation de la VaR, notamment dans le cas où les v.a ont des distributions à queues lourdes (moyennes infinies), ce qui peut s’avérer dangereux car contre-intuitif. Cependant, dans le cadre de distributions elliptiques 1 pour les risques, cette propriété est vérifiée et cette mesure est alors cohérente. Notons enfin qu’elle ne vérifie pas non plus la propriété 6 : un contre-exemple est donné immédiatement pour une loi normale standard en choisissant α < 0.5 (la moyenne étant dans ce cas égale à la VaR de niveau 50%) ; elle valide néanmoins toutes les autres propriétés énoncées précédemment. 7.2.4 La mesure TVaR (Tail Value at Risk) C’est une autre mesure populaire en gestion des risques, qui tend à se généraliser avec la prise en compte des queues de distributions. Elle est définie de la manière suivante, pour 06α61: 1 T V aRα (X) = 1−α 1 V aRu (X)du α Elle peut donc être vue comme une moyenne des mesures V aRu (X) pour u > α. Ceci fournit donc de l’information sur l’épaisseur de la queue de distribution, contrairement à la VaR qui n’indique qu’un point de cette queue. La TVaR a aussi l’avantage d’être une mesure cohérente, et de vérifier toutes les propriétés désirables énoncées précédemment. Malgré ses bonnes propriétés, cette mesure est peu utilisée en gestion des risques en raison des difficultés numériques pour la calculer, et de son interprétation délicate. 7.2.5 La mesure CTE (Conditional Tail Expectation) La mesure CTE avec un niveau de confiance α ∈ [0; 1] vaut : CT Eα (X) = E [X | X > V aRα (X)] La CTE correspond donc à la moyenne des 100(1 − α)% des valeurs les plus élevées que prend X. Cette mesure vérifie les propriétés 2 à 7. Dans le cas continu, la propriété 1 de sousadditivité est vérifiée et la mesure est cohérente. A noter que dans ce cas, la CTE coïncide alors avec la TVaR et nous pouvons évaluer l’une ou l’autre indifféremment. 1. Une loi continue est dite elliptique de paramètre de position µ et de matrice de forme symétrique définie positive Σ si sa densité p peut s’écrire p(x) = (detΣ)−1/2 q t (x − µ)Σ−1 (x − µ) , où q est une fonction réelle à valeurs positives telle que Rn q kyk2 dy = 1. Cela peut être vu comme la généralisation d’une loi gaussienne. 59 I.S.F.A. 7.3 Mémoire d’actuariat A. R ENAUDIN Mesures d’allocation 7.3.1 Définition Considérons que l’institution financière considérée fait face à un risque X, constitué de la somme de n risques différents X1 , ..., Xn , (ce sont par exemple les risques portés par ses différentes entités). Après avoir choisi une mesure de risque % et calculé le capital économique %(X) correspondant à l’agrégation de ses n risques, se pose la question d’allouer ce capital entre ces risques. Une méthode d’allocation de capital permet d’allouer les bénéfices de diversification et ainsi obtenir des capitaux individuels dont la somme est égale au capital économique global. Denault (2001, [19]) s’est intéressé à ce problème en définissant un ensemble de propriétés désirables que doit respecter une méthode d’allocation. A l’image des mesures de risques, une telle méthode d’allocation est alors considéréePcomme “cohérente”. n En notant K = %(X) la mesure du risque total X = i=1 Xi et Ki la part de capital ème allouée au i risque, un principe d’allocation (ou fonction d’allocation) peut alors être défini comme une fonction associant au couple (%, n) un vecteur de scalaires (K1 , ..., Kn ). 7.3.2 Propriétés désirables 1. (Allocation complète). K1 + K2 + ... + Kn = K Cette propriété intuitive est essentielle afin que le capital soit totalement alloué entre les différents risques. 2. (Prise en compte des effets de diversification). Pour tout sous ensemble {a, b, ..., z} de {1, 2, ..., n}, Ka + Kb + ... + Kz 6 %(Xa + Xb + ... + Xz ). Cela assure ainsi que le capital requis pour un sous-ensemble de risques considéré seul est plus important que le capital requis pour ce même sous-ensemble lorsqu’il est diversifié avec d’autres risques. 3. (Symétrie). Le fait de remplacer le risque Xi par le risque Xj avec %(Xi ) = %(Xj ) ne change pas l’allocation des risques. 4. (Pas de marge de risque injustifiée). Pour un risque constant Xi = a alors l’allocation correspondante vaut Ki = a. 7.3.3 Allocation basée sur la mesure VaR C’est l’allocation la plus naturelle lorsque la mesure de risque choisie pour calculer le capital requis pour l’ensemble des risques est la VaR, et elle se définit de la manière suivante : Ki = E [Xi | X = V aRα (X)] Nous pouvons aisément vérifier qu’elle vérifie la propriété 1 d’allocation complète en calculant : n X i=1 Ki = n X E [Xi | X = V aRα (X)] i=1 =E " n X # Xi | X = V aRα (X) i=1 = E [X | X = V aRα (X)] = V aRα (X) = %(X) 60 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Ce principe d’allocation vérifie également les propriétés 3 et 4, et la 2 sous certaines conditions qui sont logiquement les mêmes sous lesquelles la mesure VaR est sous-additive (voir précédemment). La mesure de risque utilisée dans le cadre du modèle LDA étant la VaR (comme préconisé par le régulateur), cette méthode d’allocation sera naturellement utilisée dans la suite (cf. chap 9). 7.3.4 Allocation basée sur la mesure CTE Le capital alloué au ième risque s’exprime comme : Ki = E [Xi | X > V aRα (X)] Lorsque la mesure de risque choisie est la CTE (ou la TVaR avec des variables continues), il apparait naturel de considérer une allocation selon cette formule. Elle respecte alors toutes les propriétés mentionnées précédemment, et peut donc être qualifiée de “cohérente”. Le lecteur pourra se référer à [20] pour une analyse plus approfondie des propriétés et la description d’autres principes d’allocation. N.B. : La méthode d’allocation ne peut être cohérente que lorsque la mesure de risque associée l’est aussi (condition nécessaire). 7.4 Mesures de dépendance Nous insistons dans ce paragraphe sur les différences entre les termes de “corrélation” et de “dépendance”, souvent confondus en pratique. Nous présentons les propriétés souhaitables d’une mesure de dépendance, et verrons que sorti du cas gaussien, le coefficient de corrélation linéaire ne les respecte pas. 7.4.1 Définition et propriétés désirables Une mesure de dépendance δ(., .) est une fonction qui associe à un couple de variables aléatoires une valeur réelle. Soient X1 et X2 deux variables aléatoires. Pour qu’une mesure de dépendance soit utilisable en pratique, elle doit respecter les propriétés suivantes : 1. (Symétrie). δ(X1 , X2 ) = δ(X2 , X1 ) 2. (Normalisation). −1 6 δ(X1 , X2 ) 6 1 3. (Comonotonicité). δ(X1 , X2 ) = 1 ssi X1 et X2 sont comonotones 2 . 4. (Antimonotonicité). δ(X1 , X2 ) = −1 ssi X1 et X2 sont antimonotones. 5. (Invariance). Pour toute fonction monotone f réelle, ( δ(X1 , X2 ) si f est croissante δ(f (X1 ), X2 ) = −δ(X1 , X2 ) si f est décroissante Lorsque toutes ces propriétés sont satisfaites, la mesure δ est appelée mesure de concordance. Nous exposons dans les paragraphes suivants des mesures de dépendances couramment utilisés en statistiques et énumérons leurs différentes propriétés. Nous présentons ensuite la théorie des copules en vue d’introduire une notion de dépendance stochastiques entre plusieurs risques . 2. Il est d’usage de parler de comonotonie (resp. antimonotonie) entre des risques lorsqu’ils peuvent chacun s’écrire comme une fonction croissante (resp. décroissante) d’une même variable aléatoire sous-jacente : ce sont les deux cas de dépendance parfaite. 61 I.S.F.A. 7.4.2 Mémoire d’actuariat A. R ENAUDIN Le coefficient de corrélation linéaire C’est la manière la plus usitée pour mesurer la dépendance entre deux v.a. Il sera noté r et il se définit de la manière suivante : r(X1 , X2 ) = p cov(X1 , X2 ) var(X1 ).var(X2 ) Il vérifie les deux premières propriétés énoncées ci-dessus : il est symétrique et les bornes ±1 sont atteintes lorsque X1 et X2 sont liées par une relation linéaire. Cependant lorsque X1 et X2 ne suivent pas une loi normale, r ne vérifie pas les propriétés 3 et 4 : ce n’est donc pas une mesure de concordance : ce n’est en fait qu’une mesure de dépendance linéaire entre X1 et X2 . De ce fait, son usage est problématique dans le cas général car son comportement devient contre-intuitif : – un coefficient de corrélation linéaire nul n’implique pas l’indépendance mais seulement l’absence de relation linéaire, – une valeur de r très proche de 1 peut néanmoins traduire une relation non-linéaire entre les deux variables, – enfin les valeurs possibles de r dépendent des lois marginales FX1 et FX2 : elles sont notamment modifiées par une transformation croissante de ces marginales. En particulier, la corrélation linéaire entre deux variables X1 et X2 est généralement différente de celle du couple ln(X1 ) et ln(X2 ), bien que le contenu informationnel dans les deux couples soit le même. Bien que la plus utilisée, cette mesure de dépendance peut amener à des analyses erronées dans la majorité des cas. Nous proposons dans la suite des mesures plus appropriées. 7.4.3 Le tau de Kendall L’idée du tau Kendall τ est d’apprécier non pas la corrélation des valeur des observations en elles-mêmes mais les rangs de ces observations. En notant (X10 , X20 ) un couple de v.a indépendant de (X1 , X2 ) et identiquement distribué, il se définit par la probabilité de concordance des couples moins la probabilité de discordance : τ (X1 , X2 ) = P [(X1 − X10 )(X2 − X20 ) > 0] − P [(X1 − X10 )(X2 − X20 ) < 0] Cette mesure vérifie toutes les propriétés souhaitables énoncées plus haut : c’est donc une mesure de concordance. Elle jouit donc en particulier de la propriété d’invariance fonctionnelle et les valeurs ±1 peuvent être atteintes quelles que soient les marginales FX1 et FX2 , cela étant synonyme de dépendance parfaite. 7.4.4 Le rho de Spearman Comme le tau de Kendall, le rho de Spearman ρS est un coefficient de corrélation sur les rangs des observations. Il peut être vu comme le coefficient de corrélation linéaire entre les variables “normalisées” U = FX1 (X1 ) et V = FX2 (X2 ), qui sont par définition de loi uniformes sur [0, 1]. Cela permet alors d’éliminer les effets de marge dont souffre le coefficient de corrélation standard présenté précédemment, ce qui en fait une mesure de concordance. Le coefficient de corrélation linéaire, le tau de Kendall et le rho de Spearman sont des mesures de dépendance globales. Il est toutefois intéressant d’examiner la dépendance sur les queues de distributions. Ce point fait l’objet de la section suivante. 62 I.S.F.A. 7.4.5 Mémoire d’actuariat A. R ENAUDIN Notion de dépendance de queue Le concept de dépendance de queue fournit une description de la dépendance au niveau des queues de distribution, ce qui permet étudier la survenance simultanée de valeurs extrêmes, utile dans le cadre du risque opérationnel. Contrairement aux mesures de dépendance présentées précédemment qui portent sur l’ensemble des distributions, c’est une mesure locale. En dimension 2, la mesure de dépendance de queue à droite (upper tail index) entre deux risques X1 et X2 se définit d’un point de vue probabiliste comme la limite de la probabilité conditionnelle suivante : −1 −1 λU (X1 , X2 ) = lim P X1 > FX (α) | X2 > FX (α) 1 2 α→1− C’est donc la probabilité que X1 soit un évènement extrême sachant que est X2 est extrême. Si cette probabilité est nulle, l’apparition d’un évènement extrême n’a pas d’influence sur l’apparition d’un autre extrême et nous pouvons dire que les extrêmes ne sont pas corrélés. A l’inverse, si λU est égal à 1 les extrêmes sont parfaitement dépendants. Nous pouvons de la même manière définir la dépendance de queue à gauche (lower tail index), bien qu’elle ne soit pas pertinente dans le cadre du risque opérationnel : −1 −1 λL (X1 , X2 ) = lim+ P X2 < FX (α) | X1 < FX (α) 2 1 α→0 7.5 Théorie des copules Les mesures introduites précédemment permettent de ne mesurer une dépendance qu’entre deux variables aléatoires. Un outil beaucoup plus puissant pour spécifier ou étudier une dépendance, dite stochastique, entre plusieurs variables aléatoires est présentée dans cette section. Le concept de copule a été originellement introduit par Sklar en 1959. Il s’agit une fonction mathématique permettant d’introduire une forme de dépendance entre des variables aléatoires. D’abord étudiées en mathématiques, elles ont ensuite commencé à être utilisées en statistique pour l’analyse de données multivariées. Elles ont ensuite fait leur apparition en actuariat dans les années 1990, notamment pour modéliser la dépendance en assurance dommages. Mais ce n’est qu’au début des années 2000 que les copules ont connu un essor notoire avec leurs applications en finance de marché, notamment pour modéliser les rendements de plusieurs titres financiers ainsi que les temps de défaut en risque de crédit. Leur utilisation sur les places boursières est devenue très large, même si la manière de les utiliser dans ce cadre a été remise en cause après la crise financière mondiale de 2007. La notion de copule permet de décomposer la loi jointe d’un vecteur aléatoire de dimension n en n fonctions décrivant les lois marginales seules, et une fonction décrivant la dépendance entre les composantes de ce vecteur indépendamment des lois marginales : la copule associée au vecteur. Cela permet ainsi de dissocier la structure de dépendance, qui est contenue dans la fonction copule, des lois marginales. Nous ne rentrons pas ici dans des détails trop poussés sur cette théorie, le lecteur pouvant se reporter pour cela à la littérature très riche sur le sujet, par exemple l’ouvrage référence de Nelsen (1999) [23]. L’objet est simplement de présenter cet outil mathématique et de comprendre son utilité pour modéliser la dépendance entre plusieurs risques en vue de les agréger, ce qui sera l’objet de la suite du mémoire. 7.5.1 Définition Le moyen le plus simple de définir une fonction copule C de dimension n est de la présenter comme la restriction à [0, 1]n d’une fonction de répartition multivariée dont les lois marginales sont uniformes sur [0, 1] : 63 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN C(u1 , ..., un ) = P(U1 6 u1 , ..., Un 6 un ), pour tout (u1 , ..., un ) ∈ [0, 1]n 7.5.2 Théorème de Sklar (1959) C’est un théorème fondamental qui permet de lier la loi multidimensionnelle F = FX1 ,...,Xn aux lois marginales FX1 , ..., FXn grâce à une fonction copule C : [0, 1]n −→ [0, 1]. Pour tout (x1 , ..., xn ) ∈ Rn , nous avons ainsi la relation suivante : F (x1 , ..., xn ) = C (FX1 (x1 ), .., FXn (xn )) (7.1) Dans le cas où les lois marginales sont toutes continues, alors la copule C est unique. Il est possible d’écrire dans ce cas la relation précédente (7.1) en terme de densités : f (x1 , ..., xn ) = fX1 (x1 )...fXn (xn ).c (FX1 (x1 ), .., FX2 (x2 )) où c désigne la densité associée à la copule C : c(u1 , .., un ) = (7.2) n ∂ C ∂u1 ..∂un (u1 , .., un ). Corollaire Un corollaire de ce théorème permet d’isoler la fonction copule (unique) à partir de la fonction de répartition jointe et des lois marginales supposées continues. Nous pouvons alors écrire pour tout (u1 , ..., un ) ∈ [0, 1]n : −1 −1 C(u1 , .., un ) = F FX (u1 ), .., FX (un ) 1 n 7.5.3 (7.3) Quelques propriétés remarquables Nous présentons ici quelques propriétés importantes de la théorie des copules. Pour la démonstration de ces résultats, se reporter à Nelsen (1999). Invariance par transformations croissantes Avec les notations précédentes et en considérant des marginales continues, alors C<X1 ,...,Xn > est l’unique copule associée à la distribution F du vecteur aléatoire X = (X1 , ..., Xn ). Si h1 , ..., hn sont des fonctions strictement croissantes sur respectivement Im(X1 ),..., Im(Xn ), alors : C<h1 (X1 ),...,hn (Xn )> = C<X1 ,...,Xn > Ce théorème révèle donc une propriété importante de l’outil copule : elle reste invariante sous des transformations strictement croissantes des marginales. Ainsi la copule de la distribution lognormale est la même que celle associée à la distribution normale, l’une étant obtenue par transformation strictement croissante de la seconde (y = lnx). Bornes de Fréchet Pn En définissant les fonctions C + (u1 , .., un ) = min(u, .., un ) et C − (u1 , .., un ) = max ( i=1 ui − 1, 0) alors pour toute copule C nous avons pour tout (u1 , ..., un ) ∈ [0, 1]n : C − (u1 , .., un ) 6 C(u1 , ..., un ) 6 C + (u1 , .., un ) La fonction C + est une copule est appelée copule comonotone (ou borne supérieure de Fréchet), car associée à un vecteur (X1 , .., Xn ) dont les composantes sont comonotones. De manière similaire, la fonction C − est elle associée au cas antimonotone, mais n’est plus une copule en dimension supérieure à 2. 64 I.S.F.A. 7.5.4 Mémoire d’actuariat A. R ENAUDIN Expression de la dépendance de queue L’expression de la dépendance de queue donnée en §7.4.5 peut facilement s’exprimer en fonction de la fonction copule : λU (X1 , X2 ) = lim− u→1 1 − 2u + C(u, u) 1−u et λL (X1 , X2 ) = lim u→0+ C(u, u) u A chaque type de fonction copule est donc associée une mesure de dépendance des extrêmes. 7.5.5 Exemples classiques de copules multivariées Nous présentons dans ce paragraphe les familles de copules les plus utilisées en gestion des risques et science actuarielle. Copule indépendante Cette copule est associée à des variables indépendantes X1 , ..., Xn est immédiatement déduite de l’équation (7.1) : C ⊥ (u1 , ..., un ) = u1 ...un et a pour densité c⊥ (u1 , ..., un ) = 1 Cette copule ne possède logiquement aucune dépendance de queue : λU = λL = 0. Copule normale C’est la copule associée à un vecteur gaussien, dont la fonction de répartition multivariée est en fait composée de marginales normales couplées au moyen d’une copule normale. Elle fait partie de la famille des copules elliptiques (copules associées à des lois elliptiques, dont la définition est rappelée en bas de page 59). Soient Φ la fonction de répartition de la loi normale standard et ΦΣ la fonction de répartition de la loi normale multidimensionnelle de matrice de corrélation Σ. La copule normale s’écrit alors : CΣ (u1 , ..., un ) = ΦΣ Φ−1 (u1 ), ..., Φ−1 (un ) Une représentation de sa densité en dimension 2 est donnée figure 7.1. Nous pouvons alors remarquer qu’elle comporte deux pics symétriques : cela implique que les probabilités sont plus fortes pour la survenance de deux évènements en queues de distribution (indifféremment droite ou gauche) ; nous pouvons alors parler de dépendance faible des extrêmes. En revanche, cette copule ne possède pas de dépendance de queue forte (au sens de la définition en §7.4.5) quand les valeurs du coefficient de corrélation linéaire sont différents de 1 : elle ne permet donc pas en théorie de corréler les valeurs extrêmes. L’utilisation de cette copule est cohérente lorsque la corrélation entre risques est mesurée par le coefficient de corrélation linéaire. 65 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Densité (ρ =0.6) 4 3 2 1 0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 u2 u1 F IGURE 7.1 – Densité bivariée de la copule normale (ρΣ = 0.6) Copule de Student Cette copule est cette fois associée à un vecteur aléatoire de loi de Student multivariée, qui est composé de marginales de loi Student couplées avec une copule de Student. Elle fait également partie de la famille des copules elliptiques. Soit TΩ,ν la fonction de répartition multivariée d’une loi de Student, de matrice de corrélation Ω et de degré de liberté ν. La copule de Student a pour expression : CΩ,ν (u1 , . . . , un ) = TΩ,ν Tν−1 (u1 ), . . . , Tν−1 (un ) Sa densité bivariée est dessinée en figure 7.2. Là encore, nous reconnaissons les deux pics symétriques caractéristiques d’une copule elliptique. 10 Densité (ν =1) 8 6 4 2 0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 u2 u 1 F IGURE 7.2 – Densité bivariée de la copule de Student (ν = 1, ρΩ = 0.6) Lorsque nous considérons des corrélations différentes de−1 (ce qui est le cas dans cette étude où les corrélations sont considérées positives), alors cette copule présente des dépendances de queue à droite et à gauche. En dimension 2, il est possible de représenter cette mesure de dépendance de queue à droite λU selon le niveau de corrélation ρΩ figurant dans la matrice de corrélation Ω de la copule de Student associée, ce qui est l’objet de la figure 7.3, où nous remarquons que cette 66 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN mesure est d’autant plus forte que le degré de liberté de la copule est important. N.B. : La copule de Student tend vers la copule normale pour ν −→ +∞. F IGURE 7.3 – Mesure de dépendance des extrêmes en fonction du niveau de corrélation pour une copule de Student de dimension 2 Copules Archimédiennes Cette famille de copules est définie à partir d’un générateur ϕ dont le choix donne lieu à différents types de copules, les plus connues étant celles de Clayton, Gumbel et Frank. Ce générateur ϕ doit vérifier pour tout u ∈ [0, 1] : ϕ(1) = 0, ϕ0 (u) < 0 et ϕ00 (u) > 0. Les copules Archimédiennes sont alors définies de la manière suivante : Cϕ (u1 , . . . , un ) = ϕ−1 (ϕ(u1 ) + ... + ϕ(un )) (7.4) Les générateurs correspondants aux copules Archimédiennes usuelles en dimension 2 sont donnés dans le tableau 7.3, avec l’expression de la copule résultante. Type de copule Générateur ϕ(u) associé Clayton (θ > 0) Gumbel (θ > 1) u−θ −1 θ Frank (θ 6= 0) (−lnu)θ −θu −1 −ln ee−θ −1 Copule C(u1 , u2 ) résultante −1/θ −θ −θ u1 + u2−θ− 1 exp − (−lnu1 ) + (−lnu2 )−θ (e−θu1 −1)(e−θu2 −1) − θ1 ln 1 + e−θ −1 TABLE 7.3 – Expressions des générateurs et des copules Archimédiennes associées en dimension 2 Cette famille est paramétrée par un réel θ, quelque soit la dimension de la copule. La mesure de dépendance a le même signe que θ et croît avec ce paramètre. La présence de cet unique paramètre rend problématique l’utilisation de cette famille de copules en dimension supérieure à 2 dans le cadre de la modélisation des dépendances entre risques. En effet, cela suppose que ces risques sont tous dépendants de la même façon entre eux, ce qui apparait assez réducteur. Ce type de copule reste cependant intéressant à étudier car comme nous le voyons sur leurs densités bivariées représentées figure 7.4 les copules de Clayton et de Gumbel sont asymétriques et présentent de la dépendance de queue (respectivement à gauche et à droite). 67 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 7.4 – Densités bivariées de copules Archimédiennes usuelles, de paramètre θ = 3 Dans le cadre du risque opérationnel il est donc logique de considérer soit la copule de Gumbel, soit la copule de Clayton qui couple les fonctions de survie marginales, dite copule de survie 3 . Ces deux copules n’appréhendent alors que des dépendances positives, ce qui est adapté à notre étude où les dépendances négatives sont exclues. 7.5.6 Simulation Nous présentons les deux méthodes de base nécessaires pour simuler des réalisations d’une copule, que nous noterons (u1 , ..., un ). Méthode des distributions C’est la méthode la plus naturelle, qui s’appuie sur la relation (7.3) découlant du théorème de Sklar. Ainsi pour simuler U = (U1 , ..., Un ) elle consiste à simuler préalablement le vecteur X = (X1 , ..., Xn ) de distribution multivariée F et d’appliquer la transformation U = (FX1 (X1 ), ..., FXn (Xn )) . Cette méthode est donc appropriée quand la distribution multivariée générée par la copule C est facilement simulable. C’est par exemple le cas des lois normales et Student multivariées : cette méthode sera donc retenue par la suite pour la simulation des copules de la famille elliptique. Méthode des distributions conditionnelles Lorsque la copule n’est pas issue d’une distribution multivariée connue, la méthode précédente est alors inapplicable et il faut passer par cette méthode des distributions conditionnelles. Nous la présentons dans le cas bivarié afin de ne pas complexifier les notations mais d’un point de vue mathématique elle s’étend commodément au cas multivarié. Pour simuler des réalisations (u1 , u2 ) d’une copule C en dimension 2, le principe est donc le suivant : 1. Simuler deux réalisations de variables aléatoires uniformes v1 et v2 2. Poser u1 := v1 3. Plus formellement en notant C ∗ la copule de survie associée à la copule C alors la relation de Sklar F (x1 , ..., xn ) = C FX1 (x1 ), ..., FXn (xn ) peut se réécrire F (x1 , ..., xn ) = C ∗ F X1 (x1 ), ..., F Xn (xn ) . 68 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 3. Pour obtenir u2 , il faut passer par la distribution conditionnelle de la copule C sachant u1 , qui se définit naturellement de la manière suivante : C2|1 (u1 , u2 ) = P (U2 6 u2 | U1 = u1 ) = lim ε→0 C(u1 + ε, u2 ) − C(u1 , u2 ) ε −1 Nous prenons alors u2 = C2|1 (v2 , u1 ). La difficulté de cette méthode consiste à calculer les copules conditionnelles quand la dimension est importante, ainsi que de les inverser. Elle est néanmoins adaptée au cas des copules Archimédiennes (voir Genest et McKay (1986) pour le détail des calculs). 7.5.7 Utilisation dans le contexte de l’agrégation de risques A ce stade, il est utile de se poser la question suivante : comment utiliser la théorie des copules dans le calculer la charge en capital d’un ensemble de risques (X1 , ..., Xn ) supposés dépendants ? En fait l’objectif est de pouvoir exprimer la distribution multivariée F des n risques considérés, à partir de quoi il sera possible de simuler des valeurs du vecteur (X1 , ..., Xn ) dont les composantes sont dépendantes. Il suffit ensuite de sommer les réalisations des composantes du vecteur pour obtenir une valeur de la somme des risques agrégés, et de répéter cette opération un grand nombre de fois afin de reconstituer cette distribution par simulations. Pour cela, connaissant les lois de chaque risque que nous voulons agréger (qui constituent les marginales de la distribution multivariée F ), la donnée d’une copule matérialisant la structure de dépendance entre ces risques permet alors très simplement d’exprimer la distribution multivariée F avec le théorème de Sklar (équation 7.1 page 64). En d’autres termes, la donnée de lois marginales et d’une structure de dépendance sous la forme d’une fonction copule spécifie entièrement la distribution multivariée des risques. Démarche générale La simulation d’un vecteur X = (X1 , ..., Xn ) de lois marginales FX1 , ..., FXn et de copule C se fait en deux étapes : 1. Simulation d’une réalisation u = (u1 , ..., un ) de la copule C de taille n (voir §7.5.6 page 68) 2. Nous obtenons alors une réalisation x de X = (X1 , ..., Xn ) par la transformation −1 −1 x = (x1 , ..., xn ) = FX (u1 ), ..., FX (un ) 1 n Pn En notant Lagreg = X1 + ... + Xn la somme de ces n risques dépendants, alors i=1 xi fournit une réalisation de cette variable aléatoire. En répétant un grand nombre de fois les étapes 1 et 2 ci-dessus, il est donc possible de recréer la distribution de Lagreg : il ne reste plus qu’à en calculer la mesure de risque choisie (en l’occurrence la VaR) qui est précisément la charge en capital recherchée. Exemples Nous donnons quelques exemples en dimension 2 . L’objet est alors de calculer la distribution bivariée de deux risques X1 et X2 de marginales FX1 et FX2 données, liées par une copule C spécifiée. Ainsi si nous considérons des risques de lois normales X1 ∼ N (8, 2) et X2 ∼ N (10, 1), et une copule normale Cρ de coefficient de corrélation ρ = 0.4 alors le vecteur X = (X1 , X2 ) a pour fonction de répartition bivariée FX (x1 , x2 ) = Cρ (Φ8,2 (x1 ), Φ10,1 (x2 )), avec la fonction Cρ définie précédemment et Φµ,σ la fonction de répartition de la loi normale. Cette écriture 69 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN est utile afin de comprendre “l’assemblage” des marginales effectué au moyen de la copule pour obtenir la distribution bivariée de la figure 7.5 (c’est alors une densité de vecteur gaussien, les marges et la structure de dépendance étant normales). −4 x 10 densité bivariée (ρ =0.4) 1 0.8 0.6 0.4 0.2 0 6 6 5.5 4 2 5 0 4.5 −2 marginale 2 : N(10,1) marginale 1 : N(8,2) F IGURE 7.5 – Densité bivariée de deux risques gaussiens corrélés par une copule normale (ρ = 0.4) La grande souplesse de cette méthode d’agrégation par copules est qu’il est possible de spécifier la copule indépendamment des marginales. Il est donc par exemple possible de choisir une structure de dépendance archimédienne entre deux risques normaux : la densité correspondante est alors représentée en figure 7.6. Cela permet de bien percevoir la structure de dépendance induite par ce couplage. −4 x 10 densité (θ= 5) 1.5 1 0.5 0 6 6 5.5 4 2 5 0 4.5 −2 N(10,1) N(8,2) F IGURE 7.6 – Densité bivariée de deux risques gaussiens corrélés par une copule de Gumbel (θ = 5) 70 Chapitre 8 Une première approche pour diversifier les charges en capital : l’approximation gaussienne Cette méthode d’agrégation, qui tient compte des effets de diversification entre les risques, se base sur une formule fermée d’agrégation découlant d’une hypothèse gaussienne sur les distributions annuelles de pertes. Nous présentons auparavant les enjeux et les propriétés souhaitables en terme de méthodes d’agrégation et d’allocation. 8.1 Hypothèses et méthodologie L’hypothèse centrale du modèle est de considérer que le vecteur des pertes annuelles ` = (`1 , ..., `J )0 pour les J catégories de risque d’une entité est un vecteur gaussien. En notant ρj,j 0 la corrélation entre les pertes annuelles des lignes métiers j et j 0 de l’entité considérée, nous rappelons que nous avons alors la relation : ρj,j 0 = cov(`j , `j 0 ) sj sj 0 , où sj ² =var(`j ). Cette hypothèse se résume donc comme suit : 2 s1 .. . . . . ρj,j 0 sj sj 0 0 ` ∼ N (m, Σ) avec m = (m1 , ..., mJ ) et Σ = . . .. .. 2 sJ Cela implique donc que pour tout j appartenant à [[1, J]], la perte annuelle de la j ème catégorie de risque d’une entité fixée suit une loi normale : `j − mj ∼ N (0, 1) `j ∼ N mj , s2j ⇐⇒ sj D’après la définition de la CaR au seuil de confiance α, nous pouvons écrire avec Φ la répartition de la loi normale standard : P (`j > CaRj ) = 1 − α = P D’où α=Φ `j − mj CaRj − mj > sj sj CaRj − mj sj =1−Φ ⇐⇒ CaRj = mj + Φ−1 (α) sj 71 CaRj − mj sj (8.1) I.S.F.A. 8.2 Mémoire d’actuariat A. R ENAUDIN Formule d’agrégation L’objectif est de pouvoir calculer la chargeen capital de la somme des pertes annuelles PJ des J catégories de risque, soit CaR j=1 `j = CaRtotale . Or nous connaissons la distribution de cette somme, en tant que transformation linéaire d’un vecteur gaussien : `1 J X `j =t 1.` = (1, · · · , 1) ... ∼ N t 1.m, t 1.Σ.1 j=1 `J Soit L= J X `j ∼ N j=1 J X mj , j=1 J X J X j=1 ρj,j 0 sj sj 0 (8.2) j 0 =1 La relation (8.1) trouvée précédemment permet d’aboutir à la formule d’agrégation entre les j charges en capital des catégories de risque d’une entité : v u J J J X uX X −1 ρj,j 0 sj sj 0 CaRtotale = mj + Φ (α) t j=1 j 0 =1 j=1 CaR −m Cette relation (8.1) indiquant également que sj = Φ−1j (α) j , la formule précédente peut finalement s’exprimer en fonction des différentes charges en capital à agréger : v u J J J X uX X mj + t ρj,j 0 (CaRj − mj ) (CaRj − mj 0 ) CaRtotale = (8.3) j=1 j=1 j 0 =1 Dans le cadre usuel d’une sévérité log-normale et d’une loi de Poisson pour la fréquence supposée indépendante de la sévérité, `j suit une loi Poisson-composée. Le paramètre mj s’exprime alors simplement comme le produit des moyennes des deux distributions : mj = λj exp µj + σj2 /2 . Le paramètre s2j = var(`j ) s’obtient pour sa part avec la formule de décomposition de la variance (voir équation (3.1) p.16 dans la présentation du modèle LDA) et vaut 2 s2j = λj expσj2 − 1 exp 2µj + σj2 + exp µj + σj2 /2 {z } | {z } | [E(ξ)]2 var(ξ) Cas d’indépendance Dans le cas particulier où ρj,j 0 = 0 pour j 6= j 0 alors la formule (8.3) précédente devient : v u J J X uX 2 ind CaRtotale = mj + t (CaRj − mj ) j=1 j=1 72 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Cas de dépendance totale Avec ρj,j 0 = 1, la formule se simplifie alors en : v 2 u u X J J J X X u t CaRdep = (CaR − m ) = m + CaRj j j j totale j=1 j=1 j=1 ce qui est bien le résultat attendu, et fournit une borne supérieure sur le niveau de capital agrégé. 8.3 Allocation Dans le cadre de l’approximation gaussienne du vecteur des pertes annuelles, il est également possible d’obtenir une formule fermée pour l’allocation du capital associée à la mesure de risque VaR (cf. §7.3.3 p.60). Nous rappelons que dans ce cas la contribution du j ème risque vaut : Kj = E [`j | L = V aRα (L)] Or, dans le cas gaussien, il est possible de voir cette l’espérance conditionnelle comme la projection orthogonale `⊥ j de `j sur l’espace vectoriel engendré par (1, L), ce qui implique : cov(`j , L) (L − m) s2 Nous obtenons ainsi, avec les notations utilisées précédemment, la formule explicite suivante : P s2j + i6=j ρi,j sj si Kj = mj + (V aRα (L) − m) (8.4) s2 PJ où m et s2 sont les paramètres de la loi normale suivie par L = j=1 `j , qui ont été calculés auparavant dans l’équation (8.2) . E [`j | L] = `⊥ j = mj + 8.4 8.4.1 Exemple simple en dimension 2 Agrégation Supposons que nous voulons agréger deux catégories de risques dont les pertes annuelles PN1 (1) PN2 (2) sont `1 = i=1 ξi et `2 = i=1 ξi , avec ξ (i) ∼ LN (µi , σi ) et Ni ∼ P (λi ). Nous les supposons corrélées linéairement avec un coefficient ρ. Le tableau suivant répertorie les paramètres des deux catégories en question ainsi que les CaR associées : µ1 8 σ1 2 λ1 10 µ2 10 σ2 1 λ2 50 CaR199.9% 5.34 M C CaR299.9% 3.60 M C Dans le cadre de l’approximation gaussienne présentée précédemment dans ce chapitre, le vecteur ` = (`1 , `2 ) suit une loi gaussienne bivariée N (m, Σ) et donc `i ∼ N (mi , si ) pour i = 1, 2. Cela revient donc à construire la distribution bidimensionnelle de la variable ` en supposant la normalité des marginales `i et de les agréger par une copule normale (cf. §7.5.5 page 65). La formule (8.3) établie précédemment permet de calculer le montant de la charge en capital agrégée, en fonction du paramètre ρ liant les deux catégories de risque. La figure 8.1 permet de visualiser graphiquement ce montant, en fonction d’un coefficient ρ variant entre 0 et 1 (les corrélations négatives étant exclues). Dans ce cadre gaussien, nous vérifions alors la sous-additivité des CaRs (ce qui n’est pas toujours le cas, voir §7.2.3). 73 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 9 8.8 CaR agrégée Dépendance totale Indépendance CaR agrégée (M) 8.6 8.4 8.2 8 7.8 7.6 7.4 0 0.1 0.2 0.3 0.4 0.5 ρ 0.6 0.7 0.8 0.9 1 F IGURE 8.1 – Niveau du capital agrégé (niveau 99.9%) entre deux catégories de risques en fonction de leur coefficient de corrélation linéaire ρ 8.4.2 Allocation Nous pouvons de même tracer le capital alloué aux deux risques selon leur contribution à la charge en capital totale au moyen de la formule (8.4), en fonction de ρ. C’est le résultat de la figure 8.2, où nous pouvons vérifier graphiquement la propriété d’allocation complète : la somme des deux allocations est toujours égale au niveau de capital agrégé calculé précédemment. 9 Capital alloué (Millions euros) 8 Allocation risque 1 Allocation risque 2 Somme des allocations CaR agrégée (cf. précédemment) 7 6 5 4 3 0 0.1 0.2 0.3 0.4 0.5 ρ 0.6 0.7 0.8 0.9 1 F IGURE 8.2 – Allocation du capital agrégé selon la CaR99.9% entre deux catégories de risques en fonction de leur coefficient de corrélation ρ De plus, nous pouvons constater que cette méthode d’allocation a l’avantage de prendre en compte la corrélation entre les risques. En effet, au contraire d’une allocation “statique” au prorata de la valeur des CaR respectives (toujours supérieure pour le risque 1), le capital alloué à chaque risque change dynamiquement en fonction de leur corrélation ρ. C’est ainsi qu’à partir d’un certain niveau de corrélation ρ0 ≈ 0.6 le risque 2 prend le pas sur le risque 74 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 1 et nécessite une allocation plus importante, ce qui ne parait forcément évident à première vue. Notamment, il est intéressant de remarquer que bien que la CaR agrégée soit la somme des deux CaR individuelles dans le cas d’une dépendance totale (ρ = 1), cette méthode alloue K1 = 4.38 M C au risque 1 et K2 = 4.56 M C au risque 2. Ainsi nous avons bien K1 + K2 = CaR1 + CaR2 mais K1 6= CaR1 et K2 6= CaR2 comme nous aurions pu nous y attendre. 8.5 Avantages et inconvénients Cette manière de procéder a pour principal avantage d’être facilement applicable. Elle requiert simplement d’avoir mené les calculs de CaR pour chaque risque comme expliqué précédemment et spécifié une matrice de corrélation entre ces risques (généralement fournie par des concertations d’experts métiers dans le cadre du risque opérationnel). En outre, elle ne nécessite aucune simulation et donc pas de temps de calcul. De plus, les paramètres intervenant dans la formule d’agrégation et d’allocation sont facilement interprétables et compréhensibles. La charge en capital agrégée croît alors linéairement avec le niveau de corrélation ce qui est assez intuitif. Cette méthode peut tout de même apparaitre assez irréaliste en pratique. En effet, l’hypothèse centrale du modèle est très forte. Cela revient à supposer que les pertes annuelles des différentes catégorie de risques forment un vecteur gaussien, ce qui implique que chaque perte annuelle est supposée de loi normale. En d’autre termes, cela revient à approximer toutes les marginales de loi Poisson-composée (généralement Poisson-lognormale) par des lois normales. Cela peut s’avérer incohérent surtout quand le paramètre de fréquence λ est élevé, car l’asymétrie de la densité de la perte annuelle est alors accentuée et sa queue de distribution épaissie, ce qui rend l’approximation gaussienne caduque. De plus, nous avons vu que cette méthodologie implique d’utiliser une mesure de corrélation linéaire, qui est peu adaptée aux cas rencontrés en pratique et peut parfois conduire à de fausses interprétations. Tout cela implique donc de chercher d’autres moyens d’agréger les charges en capital en utilisant des hypothèses plus réalistes et moins réductrices, reflétant mieux l’exposition au risque opérationnel de l’établissement bancaire considéré. Tout cela est l’objet du pilier 2 de Bâle II et nous proposons dans le chapitre suivant une méthodologie rentrant dans ce cadre règlementaire, qui a été présenté au chapitre 2 (p.7). 75 Chapitre 9 Mise en place d’une nouvelle méthodologie : agrégation par copules En pratique, l’intensité de la dépendance entre risques augmente dans les situations défavorables, ce qui limite l’efficacité des modèles de diversification calibrées avec des structures gaussiennes ne prenant pas en compte cet effet. L’introduction de structures de dépendance non linéaires intégrant de la dépendance de queue apparait ainsi comme un élément incontournable de l’évolution des modèles de capital économique au titre du risque opérationnel dans le cadre de l’ICAAP. 9.1 Principes de la méthode proposée Nous présentons une méthodologie innovante en vue de l’obtention d’un capital économique pour le risque opérationnel pour un groupe dans le cadre de l’adéquation des fonds propres (pilier 2 de Bâle II). Cette méthode prend en compte les interactions entre ses catégories de risques et différentes entités au moyen de fonction copules. Nous présentons tout d’abord les fondements théoriques de la méthodologie, puis l’appliquons dans la pratique pour agréger les risques opérationnels des entités du Groupe Crédit Agricole. Nous discutons enfin des résultats obtenus et les comparons avec la méthode d’agrégation gaussienne présentée précédemment. 9.1.1 Objectifs Nous présentons dans ce paragraphe l’idée générale et les notations de la méthodologie qui va suivre. L’objectif est d’agréger les risques opérationnels au niveau d’un groupe constitué de I entités, chacune composées de J catégories de risque afin d’obtenir un capital économique pour ce groupe, puis de réallouer ce capital entre ses entités de manière judicieuse. Pour ce faire, nous nous proposons de raisonner selon une approche type bottom-up (plusieurs étapes d’agrégations, du niveau le plus élémentaire vers le niveau le plus global à savoir celui du groupe) en utilisant à chaque étape l’outil copule présenté précédemment pour modéliser la dépendance entre risques et pouvoir les agréger. Les risques considérés seront les pertes annuelles `k , appartenant soit à une catégorie de risque soit à une entité : k ∈ [[1, J]] ∪ [[1, I]]. Nous nous intéressons alors à la distribution conjointe du vecteur L de ces pertes annuelles, dont nous supposons la dépendance modé- 76 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN lisée par une copule C donnée 1 . Le but est alors de simuler des réalisations de la somme des composantes de ce vecteur de pertes afin d’en déduire la charge en capital résultant de l’agrégation de ces risques. Dans le chapitre où nous détaillions les propriétés et l’utilité des copules dans un contexte d’agrégation de risques (§7.5.7 page 69), L était simulée à partir de la transformation suivante, écrite en confondant intentionnellement variable aléatoire et fonction de répartition associée : −1 `1 (U1 ) .. (9.1) L= . `−1 n (Un ) Ceci implique alors de connaitre les distributions analytiques des pertes annuelles `1 , ..., `n , de chaque catégorie de risque ou entité à agréger. Or ce n’est pas le cas dans le cadre du modèle LDA (voir chapitre 3) car ces distributions sont de type Poisson-composées. Mais comme il est néanmoins possible de simuler ces distributions marginales (l’algorithme est rappelé en 6.1 p.53), nous pouvons utiliser ces marges empiriques en lieu et place des distributions théoriques : c’est la méthode dite des “quantiles empiriques”, qui converge vers la distribution théorique pour un nombre de simulations S suffisamment grand (voir la démonstration formelle dans [2] p.320, basée sur la convergence presque sûre des quantiles empiriques vers les quantiles théoriques). Nous remarquons donc dès à présent l’un des principaux avantages de la méthode : aucune hypothèse supplémentaire n’est faite sur les marginales à agréger, contrairement à l’approximation normale de ces marginales présentée dans le chapitre précédent. 9.1.2 Etape 1 : agrégation des catégories de risque Tout d’abord, il est question de calculer une charge en capital pour l’ensemble des J catégories de risques pour une entité i considérée. L’intégration des scénarios stand alone concernant l’entité i est pris en compte en considérant ces scénarios comme des catégories de risque à part entière (de chaque scénario étant déduit un triplet (µ, σ, λ) aboutissant à une distribution de perte annuelle et une CaR associée, voir §3.4 p.19). Le principe est alors de recréer la distribution multidimensionnelle L à partir des lois marginales `1 , ..., `J (elles-mêmes obtenues par simulations : ce sont donc des marginales empiriques) et d’une copule C1 choisie. Simulation de la matrice des pertes annuelles Pour chaque catégorie de risque j ∈ [[1, J]], nous simulons tout d’abord les distributions de chacune de leurs pertes annuelles, c’est-à-dire la matrice (1) (1) ` = ( `1 ... `J ) = `1 .. . (S) `1 ... ... `J .. . (S) `J (s) Ni P (s) (s) (s) bj et ξ (s) est simulé selon la loi avec pour tout s ∈ [[1, S]], `j = k=1 ξj,k où Nj ∼ P λ j,k de sévérité choisie et préalablement estimée, ici LN µ bj , σ bj . Cette matrice matérialise donc les marges empiriques simulées S fois, que nous allons agréger selon la structure de dépendance définie par la copule C1 . 1. Nous supposons ici que le type de la copule C a été spécifié. Le problème du choix de la forme de cette copule sera discuté en §9.1.6 p.79. 77 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Simulation de la copule C1 Afin de pouvoir mettre en œuvre l’agrégation, il faut à présent simuler 2 des réalisations de la copule C1 . Nous obtenons donc la matrice (1) (1) C1 = u1 .. . (S) u1 ... ... uJ .. . (S) uJ où chacune des S lignes est une réalisation des composantes de la copule C1 de dimension J. Obtention de la matrice des simulations de la perte agrégée totale En combinant la matrice des simulations des pertes annuelles ` et la matrice des simulations de la copule C1 , il est possible deP simuler la distribution de perte multidimensionnelle L ainsi que la perte agrégée Lagreg = k `k , où l’indice k parcourt les catégories de risque considérées. Ainsi pour chaque ligne la matrice C1 , il est possible d’obtenir une réalisation de L selon la transformation (9.1) présentée plus haut : les différentes composantes de L sont obtenues comme les quantiles empiriques des colonnes de `, qui representent les distributions marginales, pris aux niveaux contenus dans les lignes de la matrice C1 . Cette matrice comportant S lignes, nous obtenons donc autant de simulations du vecteur L de dimension J. Il suffit enfin de sommer les lignes de cette matrice pour obtenir un vecteur représentant S simulations de la perte agrégée Lagreg (de dimension 1) : la charge en capital liée à l’agrégation des risques est alors obtenue en calculant le quantile empirique de ce vecteur au niveau désiré. 9.1.3 Etape 2 : agrégation des entités L’objet est maintenant d’agréger les pertes annuelles des I entités, dont les catégories de risques ont été agrégées à l’étape précédente. Il s’agit donc de dérouler la même méthode qu’auparavant, avec cette fois en entrée les vecteurs pertes annuelles des entités : Lagreg , ..., Lagreg qui constituent les marginales 1 I à agréger, et une structure de dépendance modélisée au moyen d’une fonction copule C2 supposée spécifiée, de dimension I. Plus formellement, nous avons donc une matrice agreg(1) agreg(1) ... L1 L=( Lagreg 1 ... Lagreg I .. . )= LI agreg(S) L1 ... agreg(S) LI ainsi qu’une matrice (1) v1 C2 = ... (S) v1 ... ... (1) vI .. . (S) vI à partir desquelles P nous désirons simuler des valeurs de la perte totale agrégée au niveau agreg groupe : Lagreg = . groupe k Lk Comme auparavant nous utilisons la transformation (9.1) pour obtenir S simulations de la perte multidimensionnelle Lgroupe = (Lagreg , Lagreg , ..., Lagreg ) dans une matrice 1 2 I de dimension S × I, puis il suffit de sommer les lignes de cette matrice pour aboutir à S simulations de la perte des entités agrégées au niveau groupe Lagreg groupe . 2. Les techniques de simulation des copules ont été abordées §7.5.6 p.68 78 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN La charge en capital CaRgroupe = CaR Lagreg groupe requise pour le risque opérationnel au niveau du groupe se déduit alors simplement de ce vecteur en en calculant le quantile empirique au niveau choisi. 9.1.4 Etape 3 : Allocation Afin d’allouer le capital calculé précédemment entre les différentes entités du groupe nous utilisons logiquement une allocation basée sur la mesure de risque VaR, dont les fondements et les propriétés théoriques ont été présentés préalablement (§7.3.3 p. 60). Cette méthode d’allocation se fonde sur la contribution de la perte annuelle de chaque entité à la perte annuelle totale du groupe. En notant Ki le capital devant être alloué à la ième entité, nous avons formellement : agreg Ki = E Lagreg | Lagreg groupe = CaRα Lgroupe i En pratique, nous déterminons cette espérance par simulations. Le calcul de CaRgroupe présenté précédemment est mené p fois, et à chaque valeur obtenue nous gardons en mémoire les différentes contributions des vecteurs Li à la valeur de CaRgroupe . Il ne reste ensuite qu’à moyenner ces contributions pour obtenir l’allocation du capital CaRgroupe entre les différentes entités. 9.1.5 Exemple en dimension 2 Afin de bien comprendre la méthodologie d’agrégation exposée dans la section précédente, nous l’appliquons sur un exemple simple en dimension 2. L’objet est donc d’agréger deux risques `1 et `2 (correspondants aux pertes annuelles de deux catégories de risque, ou de deux entités) dont la dépendance est modélisée par une fonction copule notée C1 . Les distributions `1 et `2 étant de type Poisson-composé, nous procédons par simulations : S = 100 tirages de chaque variable aléatoire sont effectués dans cet exemple. La figure 9.1 illustre alors comment la distribution de Lagreg = `1 + `2 est reconstituée à partir des tirages de `1 et `2 triés dans des vecteurs `01 et `02 , et de la matrice des simulations de la copule C1 . Chaque composante du vecteur Lagreg est alors obtenue en sommant les quantiles empiriques de `01 et `02 dont les niveaux sont donnés par les composantes des lignes de la matrice C1 . Une simulation des contributions de `1 et `2 à la CaR agrégée est également représentée. Ces deux contributions sont obtenues en sur la composante du vecteur des simulations de Lagreg correspondant à sa CaR. Cette composante est constituée de la somme de deux termes provenant respectivement de `01 et `02 et sont précisément des réalisations des contributions recherchées. En réitérant Salloc fois cette étape d’agrégation et en calculant à chaque itération ces deux contributions, nous avons donc bien en moyenne : contribi 9.1.6 = E [`i | `1 + `2 = CaRα (Lagreg )] (9.2) Discussion sur le choix de la copule Dans les paragraphes précédents de ce chapitre, nous avons raisonné en supposant que la copule modélisant la dépendance entre les risques à agréger était prédéterminé, car la question point est délicat à traiter dans le cadre du risque opérationnel. En effet, les procédures d’inférence et d’estimation classiques pour les copules ne peuvent s’appliquer : les pertes annuelles étant collectées sur un historique de 5 ans, nous ne disposons donc que de 5 points pour chaque risque à agréger. Or les méthodes de sélection de copule optimale 3 3. Voir à ce propos la démarche proposée par Armel, Planchet et Kamega (2010) dans : “Quelle structure de dépendance pour un générateur de scénarios économiques en assurance ?” 79 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 9.1 – Illustration de l’agrégation de deux pertes annuelles par copule s’appuient généralement sur des outils graphiques (en dimension 2) ou sur la mesure d’une distance entre la copule empirique (construite à partir des données collectées) et une copule paramétrique, ce qui nécessite de disposer de suffisamment d’observations. Nous sommes donc obligés d’intuiter la structure de dépendance au cas par cas, en se basant sur les propriétés des principales copules présentées auparavant. De même, une fois le choix de la copule effectué, l’estimation de son ou ses paramètres est difficilement envisageable, faute de données suffisantes. La solution la plus naturelle pour appréhender la dépendance en dimension n quelconque est d’utiliser une copule de la famille elliptique (Normale ou Student). En effet, ce type de copule prend en paramètre une matrice de corrélation de dimension n, ce qui permet de différencier les dépendances entre chacune de ses composantes. De plus, par son caractère intuitif, ce type de matrice peut facilement être fourni par des experts métiers dont le rôle est d’apprécier les corrélations entre différentes branches d’activité ou entités d’un même groupe. Ceci solutionne par la même occasion l’étape d’estimation du paramètre matrice de corrélation de la copule. Les autres types de copules, en particulier les copules archimédiennes, ont l’avantage de pouvoir modéliser des dépendances plus diverses, notamment une asymétrie et une dépendance forte des valeurs extrêmes. En revanche, toute la dépendance n’est résumée que dans un seul paramètre scalaire et les composantes sont alors toutes corrélées de la même façon, ce qui ne parait donc pas réaliste dans la pratique. L’estimation de ce paramètre par des experts est en outre rendue complexe du fait que le domaine de définition du paramètre peut varier avec le type de copule envisagé. Pour les copules archimédiennes, une solution est d’envisager une construction hiérarchique mais cela pose un certain nombre de complications et de contraintes que nous détaillerons au chapitre suivant (chapitre 10, p. 88). En conséquence, nous nous centrerons dans la suite sur l’utilisation de copules issues de la famille elliptique pour modéliser les dépendances entre pertes annuelles, à savoir les copules normale et de Student, dont la matrice de corrélation est estimée à dires d’experts. 80 I.S.F.A. 9.2 9.2.1 Mémoire d’actuariat A. R ENAUDIN L’exemple du Groupe Crédit Agricole Mise en œuvre de la méthodologie d’agrégation précédente dans le cadre de l’ICAAP Nous présentons ici une application pratique de la méthode d’agrégation présentée dans la section précédente pour le groupe Crédit Agricole, en utilisant les données de pertes collectées par ses entités validées en approche avancée AMA. Pour des raisons de confidentialité, certains résultats présentés dans la suite ont été transformés, sans que cela ne nuise à l’analyse et l’interprétation des calculs. Etape préliminaire L’objectif est de mutualiser les données de plusieurs entités selon une nouvelle définition des lignes métiers afin d’être plus en phase avec la définition des lignes métiers présentée dans le texte Bâle II. Pour le Groupe Crédit Agricole, les quatre pôles métiers suivants ont été définis : 1. Banque de financement et d’investissement (BFI) : CA-CIB 2. Gestion d’actifs : Amundi 3. Crédit à la consommation : CA-CF (résultat de la fusion entre Finaref et Sofinco), Agos 4. Banque de détail : LCL, Caisses régionales Les données de pertes ont donc été regroupées par catégories de risques au sein de chaque pôle métier, et de nouveaux scénarios stand alone concernant ces différents pôles ont été élaborés par des experts métiers. Comme rappelé au paragraphe 9.1.2 (p.77), les scénarios stand alone mutualisés sont ensuite considérés comme autant de catégories de risques supplémentaires aux pôles métiers. F IGURE 9.2 – Principe d’agrégation des risques opérationnels proposé (bottom-up en 2 étapes) Etape 1 : agrégation des catégories de risques au sein des pôles métiers Dans cette première étape, il est question d’agréger les différentes catégories de risques (ainsi que les scénarios) de chaque pôle métier, en tenant compte de leur dépendance. Cela 81 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN aboutit alors à la construction d’une distribution annuelle de perte pour chaque pôle métier, par simulation. Plaçons nous au sein d’un pôle métier – la démarche étant la même pour tous – et appliquons la méthodologie de la section 9.1 précédente. L’ajustement d’une loi de fréquence (Poisson) et de sévérité (ici lognormale) pour chacune des catégories aboutit à 7 triplets (µ, σ, λ), qui viennent s’ajouter aux nS triplets résultants des nS scénarios stand alone concernant le pôle en question. Pour reprendre les notations précédentes, ces paramètres permettent alors de simuler les pertes annuelles de chaque catégorie de risque, regroupés dans la matrice ` = ( `1 . . . `7+nS ). Il est ensuite possible de simuler la copule choisie pour représenter la dépendance entre catégories de risques/scénarios dans la matrice C1 de dimension 7+nS , et d’obtenir par simulations le vecteur Lagreg , représentant la distribution de la perte annuelle du pôle métier considéré. Etape 2 : agrégation des pôles métiers Une fois obtenus les vecteurs des distributions de la perte annuelle pour chaque pôle métier, il est question de les agréger en tenant compte de leur dépendance, afin d’obtenir la distribution de la perte annuelle pour l’ensemble du groupe. Cela permet alors d’en extraire la charge en capital diversifiée, ou capital économique au titre des risques opérationnels. agreg . . . Lagreg Avec les notations précédentes, cela revient à utiliser la matrice L = L1 4 et la matrice C2 de dimension 4 modélisant la dépendance entre les pôles pour obtenir le vecteur Lagreg groupe . Ces différentes étapes de la méthodologie d’agrégation sont représentées en figure 9.2. 9.2.2 Parallèle avec la formule standard de Solvabilité II Le Capital de Solvabilité Requis (SCR, Solvency Capital Requirement) dans Solvabilité II est l’analogue du capital règlementaire requis dans Bâle II, mais calculé au niveau de confiance 99.5%. Au niveau d’un groupe d’assurance, le calcul règlementaire du SCR global se fait de la manière suivante : SCRglobal = BSCR − Adj + SCRop Avec : BSCR : capital de solvabilité requis de base Adj : terme d’ajustement dû aux effets d’absorption des provisions techniques et des impôts différés SCRop : capital requis pour le risque opérationnel (voir 2.4.2 p.12 pour les préconisations de calcul dans le cadre de Solvabilité II). Le terme résultant de l’agrégation des modules de risques est le BSCR : un SCR doit être ainsi être calculé pour chacun de ces modules de risque. Ces SCR peuvent être calculés par une “formule standard”, c’est-à-dire fournie par les autorités de régulation européennes. Celleci définit pour chaque classe des facteurs de risques spécifiques et une méthode standard d’évaluation. Selon les spécifications de la cinquième étude quantitative d’impact (QIS 5), l’agrégation des risques se fait donc en 2 étapes (voir figure 9.3). Etape 1 : agrégation entre risques d’un même module Au sein du module de risque i, il est question d’agréger les J sous-modules de risque. La formule standard indique alors que : 82 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 9.3 – Structure générale d’agrégation bottom-up des risques dans Solvabilité II (QIS 5) (module) SCRi = sX ρp,q × SCRp × SCRq p,q∈J Où ρp,q est le coefficient de corrélation (linéaire) entre les sous-modules p et q, et SCRp et SCRq les capitaux correspondants. La formule standard fournit les valeurs des matrices de corrélation, et donc des coefficients ρp,q . Etape 2 : agrégation entre modules de risque Les SCR des modules de risque ainsi obtenus sont alors agrégés pour obtenir le BSCR, selon la même formule (en ajoutant un terme provenant du capital requis au titre du risque lié aux actifs incorporels). Là encore, les coefficients de corrélations sont fournis par le régulateur. Ils sont actuellement soumis à discussion, mais le QIS 5 a abouti à la matrice répertoriée dans le tableau 9.1. ρ Marché Contrepartie Vie Santé Non-vie Marché 1 0.25 0.25 0.25 0.25 Contrepartie Vie Santé Non-vie 1 0.25 0.25 0.5 1 0.25 0 1 0 1 TABLE 9.1 – Matrice de corrélation fournie par le QIS 5 entre les modules de risques de la formule standard de Solvabilité II 83 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Interprétation Il apparait clairement que les formules d’agrégation fournies par la formule standard pour les différentes étapes sont en fait équivalentes à celles obtenues au chapitre précédent (voir l’équation (8.3) p.72). L’agrégation des risques par la formule standard, telle que proposée actuellement, fait donc l’hypothèse d’un univers Gaussien avec toutes les simplifications que cela implique (hypothèse de dépendance linéaire entre les risques). 9.3 Résultats obtenus Nous mettons ici en application la méthodologie d’agrégation des risques opérationnels précédente basée sur les copules au Groupe Crédit Agricole et ses différents pôles métier, afin d’obtenir un capital économique au niveau groupe au titre des risques opérationnels, dans le cadre de l’ICAAP. 9.3.1 Capitaux non diversifiés Afin d’avoir un aperçu du bénéfice de diversification engendré par cette méthode d’agrégation, le tableau 9.2 recense les CaR non diversifiées pour chaque pôle métier du Groupe, au niveau 99.97%. Ces CaR sont simplement obtenues en sommant les CaR de chaque catégorie de risque les composant. De même, la CaR groupe non diversifiée est obtenue comme la somme des CaR non diversifiées des différents pôles du Groupe Crédit Agricole. CaR (MC) α = 99.97% Banque de détail 1839 Crédit conso. 85.6 Asset management 389 BFI 1301 Groupe 3615 Répartition ĂŶƋƵĞĚĞĚĞƚĂŝů ƌĞĚŝƚĐŽŶƐŽ ƐƐĞƚDĂŶĂŐĞŵĞŶƚ &/ TABLE 9.2 – Valeur et répartition des capitaux non diversifiés pour chaque pôle du Groupe Crédit Agricole Nous notons que la charge en capital la plus importante est celle du pôle Banque de détail, et représente plus de la moitié du capital total non diversifié au niveau du Groupe. 9.3.2 Un mot sur les matrices de corrélation Corrélations à dires d’experts Dans la suite, nous calculons les valeurs des capitaux obtenus en prenant en compte les effets de diversification dus à la dépendance entre catégories de risques, et entre pôles métiers. Comme rappelé au paragraphe 9.1.6 (p.79), nous privilégions les méthodologies faisant directement intervenir des matrices de corrélation pour effectuer l’agrégation et l’allocation. Parmi elles, nous testons donc l’agrégation par copules elliptiques (Normale et Student), que nous comparons à la formule d’agrégation ’standard’ reposant sur une hypothèse de normalité du vecteur des pertes annuelles à agréger. Dans la suite, cette matrice de corrélation est déterminée en interne, sur la base de résultats de discussions entre experts métiers lors de divers ateliers. 84 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN Pour la première étape, les corrélations entre les différentes catégories de risques de chaque pôle métier sont obtenues en pondérant les corrélations des catégories de risque des entités qui font partie du regroupement. Afin de rester cohérent avec le contexte de l’ICAAP, cette pondération sera choisie comme la CaR au niveau 99.97% de l’entité considérée. La deuxième étape nécessite pour sa part de connaitre les corrélations entre les différents pôles métiers du groupe. Par mesure de conservatisme, chaque coefficient est alors obtenu en prenant le maximum des coefficients apparaissant dans les matrices de corrélation disponibles pour chaque entité formant le pôle. Alternatives et justification La matrice de corrélation constituant le paramètre de la copule utilisée – auquel nous pouvons rajouter le degré de liberté ν pour une copule de Student – le cadre classique de la statistique paramétrique impose alors de les estimer à partir des données empiriques à notre disposition. Ces données étant les pertes annuelles sur un historique de 5 ans, elles ne sont donc pas assez nombreuses pour permettre une estimation satisfaisante. Une alternative serait néanmoins de travailler sur des données mensualisées. La démarche serait alors de calculer les tau de Kendall empiriques τ̂ij entre ces pertes mensuelles, puis d’utiliser la relation les liant au coefficient de corrélation linéaire 4 pour obtenir les estimations ρ̂ij des coefficients de la matrice de corrélation Σ. Dans le cas de l’utilisation d’une copule de Student, il reste à estimer le degré de liberté ν qui se fait classiquement par maximum de vraisemblance sur ces mêmes données 5 . Pour autant cette démarche, si elle est plus rigoureuse mathématiquement, ne parait pas acceptable dans sa logique. Elle utilise en effet des données de pertes mensuelles pour estimer les paramètres d’une copule censée modéliser la dépendance entre pertes annuelles. De plus, elle n’interdit pas d’obtenir des corrélations négatives entre risques, qui en plus d’être peu réalistes sont difficilement justifiables auprès du régulateur car sources d’une diversification très importante. Nous utiliserons donc dans la suite des matrices de corrélations construites par des experts métiers, selon la méthodologie exposée dans le paragraphe précédent. 9.3.3 Considérations numériques et précision des estimateurs Dans la méthodologie d’agrégation par copules, la première étape est la plus consommatrice d’espace mémoire (lors de la seconde seuls 4 risques doivent être agrégés). Il s’agit en effet d’agréger 7 + nS risques, qui sont des vecteurs obtenus par simulations de longueur NM C . Pour cette étape le pôle métier le plus consommateur est la banque de détail, où en raison des nombreux scénarios standalone nous nous devons de travailler avec un total de 26 risques, soit potentiellement effectuer des opérations sur une matrice de dimension NM C × 26. Tous les calculs de charges en capital précédents ont été effectués avec une valeur NM C de 4 millions de simulations : cela constitue en effet la limite qui pouvant être atteinte en terme d’espace mémoire alloué par M ATLAB sur les machines utilisées. Néanmoins, nous avons constaté que cette valeur suffit à garantir une précision inférieure à 1% pour les calculs CaR diversifiées (la précision étant évaluée par le coefficient de variation relatif, défini comme le ratio entre l’écart-type des CaR obtenues et leur moyenne). 4. Avec ces notations nous avons la relation ρ̂ij = sin (πτ̂ij /2) 5. En notant c la densité de la copule de Student, F̂i les marginales empiriques, xi les données à notre disposition et uˆi = F̂i (xi ), alors le degré de liberté est estimé en maximisant la pseudo log-vraisemblance (méthode CML) : " n # X ˆ i ; ν; Σ̂) ν̂ = argmax ln c(u ν>0 i=1 85 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN En ce qui concerne le calcul des contributions à la CaR agrégée afin d’obtenir les allocations (équation (9.2) p.79), nous le faisons avec Salloc = 1000 itérations. Ce choix est contraint par le temps de calcul nécessaire, mais permet empiriquement d’obtenir des allocations dont le coefficient de variation relatif est inférieur à 5%. La précision est donc moindre que sur les charges en capital mais ceci est moins contrariant dans la mesure où ces allocations sont des chiffres internes au groupe, et non des capitaux règlementaires qui sont eux calculés avec la précision suffisante (inférieure à 1%). 9.3.4 Agrégation et capital économique avec hypothèse gaussienne Nous appliquons ici la méthodologie d’agrégation présentée au chapitre 8 (p.71), qui nous l’avons vu est similaire à celle de la formule standard de Solvabilité II. Les capitaux diversifiés obtenus à l’issue des deux étapes sont présentés dans le tableau 9.3. CaR (MC) Banque de détail BFI Asset management Crédit conso. Groupe Etape 1 672 38 242 789 1742 Etape 2 . . . . 1310 Diversification totale -63% -55% -38% -39% -64% TABLE 9.3 – Capitaux obtenus via la formule d’agrégation Gaussienne 9.3.5 Agrégation et capital économique avec copule normale Les résultats sont regroupés dans le tableau 9.4, au dessous duquel figure également l’allocation du capital économique obtenu selon la contribution de chaque pôle métier. CaR (MC) Banque de détail BFI Asset management Crédit conso. Groupe Valeur des capitaux Etape 1 Etape 2 Diversification totale 413 . -78% 31 . -63% 214 . -45% 751 . -42% 1411 941 -74% Allocation ĂŶƋƵĞĚĞĚĞƚĂŝů ƌĞĚŝƚĐŽŶƐŽ ƐƐĞƚDĂŶĂŐĞŵĞŶƚ &/ TABLE 9.4 – Capitaux obtenus via une agrégation par copule Gaussienne, et allocation du capital économique du Groupe selon la contribution de chaque pôle métier Le pourcentage de diversification total conséquent obtenu au niveau groupe (74%) peut s’expliquer par le fait que la copule normale ne prend pas en compte les dépendances entre les risques extrêmes (coefficient de dépendance de queue nul). Notons que l’agrégation par copule normale parait encore moins conservateur que L’allocation induite par la contribution de chaque pôle métier à la CaR fait quant à elle apparaitre une grande partie du capital alloué à la Banque de détail. La banque de 86 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN financement et d’investissement (BFI), qui potentiellement comporte les risques les plus extrêmes, ne se voit allouer quant à elle qu’une faible part du capital. Cela apparait donc cohérent avec la remarque précédente, à savoir que la contribution de ce pôle à la CaR est faible si nous ne prenons pas en compte les dépendances qu’il pourrait y avoir dans les extrêmes, d’où une allocation insuffisamment conservatrice. 9.3.6 Agrégation et capital économique avec copule de Student Comme l’estimation du degré de liberté de la copule est très délicat en pratique (voir p.85) , nous avons ici choisi de travailler avec un degré de liberté très faible (ν = 3) par mesure de conservatisme. Nous constatons alors dans le tableau 9.5 un bénéfice de diversification plus réaliste que dans les deux cas précédents. CaR (MC) Banque de détail BFI Asset management Crédit conso. Groupe Etape 1 1171 58 294 973 2499 Etape 2 . . . . 2068 Diversification totale -36% -31% -24% -25% -43% Allocation ĂŶƋƵĞĚĞĚĞƚĂŝů ƌĞĚŝƚĐŽŶƐŽ ƐƐĞƚDĂŶĂŐĞŵĞŶƚ &/ TABLE 9.5 – Capitaux obtenus via une agrégation par copule de Student (ν = 3), et allocation du capital économique du Groupe selon la contribution de chaque pôle métier Nous pouvons aussi noter qu’en plus de ce bénéfice de diversification moindre attendu, l’allocation induite par ce choix de copule laisse apparaitre une part du capital bien plus importante à la Banque de Financement et d’Investissement (BFI), ce qui apparait plus prudent. De plus, la répartition proposée est ici comparable au prorata des CaR de chaque entité, ce qui d’un point de vue métier apparait plus logique. Pour toutes ces raisons, c’est la valeur du capital au niveau groupe obtenue par cette méthode qui a été initialement validée par le Groupe comme capital économique au titre de l’ICAAP. 87 Chapitre 10 Approfondissements et perspectives Dans ce dernier chapitre, nous donnons quelques pistes qui pourraient être envisagées pour modéliser la dépendance entre risques opérationnels, l’objet étant de donner un aperçu des concepts mathématiques en jeu et de leurs champs d’application. Le détail de leur utilisation pratique et de leur implémentation est un champ de recherche largement ouvert, et qui reste à explorer. 10.1 Les copules archimédiennes hiérarchiques 10.1.1 Motivations Nous avons présenté précédemment les copules archimédiennes (7.5.5 p.67). Nous avons également vu que, bien qu’elles présentent des caractéristiques de dépendance adaptées au risque opérationnel (notamment au niveau des dépendances de queue asymétriques), leur utilisation en dimension supérieure à 2 est limitée par leur unique paramètre scalaire qui a pour conséquence de corréler tous les risques de la même façon ce qui constitue une hypothèse trop peu réaliste. Un moyen de remédier à cet écueil, et qui semble assez naturel, est d’envisager une construction hiérarchique, ou ’imbriquée’, entre ces types de copule. Cela constitue alors un moyen simple – du moins en apparence – de différencier et de caractériser plus précisément les dépendances entre risques. 10.1.2 Définition Une copule C de dimension d est une copule archimédienne hiérarchique (hierarchical ou nested Archimedean copula) si c’est une copule archimédienne, dont les arguments sont éventuellement des copules archimédiennes hiérarchiques. Cette définition récursive s’initialise pour d = 2 avec la définition d’une copule archimédienne classique (équation (7.4) p.67). Afin de mieux comprendre cette définition, considérons un exemple simple en dimension d = 3 avec une structure faisant intervenir les générateurs archimédiens ψ0 et ψ1 et s’écrivant comme suit : C3 (u1 , u2 , u3 ) = Cψ0 (u1 , Cψ1 (u2 , u3 )) (10.1) La définition de copule archimédienne hiérarchique est respectée pour C3 car c’est bien une copule archimédienne (de générateur ψ0 ) dont le deuxième argument est lui-même une copule archimédienne hiérarchique (de dimension 2 donc coïncidant avec une copule 88 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN archimédienne classique de générateur ψ1 ). Notons que cette structure peut facilement se représenter sous forme d’arbre, ce qui est fait sur la figure 10.1. F IGURE 10.1 – Représentation sous forme d’arbre d’une copule archimédienne hiérarchique en dimension 3 La copule intervenant au niveau le plus haut est généralement appelée racine (root copula). Plus généralement, une copule est dite parent (parent copula) si au moins une de ses composantes est une copule hiérarchique, auquel cas cette copule est appelée copule enfant (child copula). Le niveau de hiérarchie (nesting level) est définie comme la profondeur de l’arbre, ici égale à 2. 10.1.3 Contraintes Pour que la structure définie au paragraphe précédent vérifie toutes les propriétés d’une fonction copule, il faut respecter certaines conditions sur les générateurs utilisés dans sa construction. McNeil (2008, [26]) présente une condition suffisante pour que la structure hiérarchique construite soit effectivement une copule. Il faut que ψi−1 ◦ ψj soit strictement monotone (ou de manière équivalente : doit être l’inverse d’une transformée de Laplace) pour tous les nœuds de la structure, de parent i et enfant j. En pratique, cette condition peut être facilement vérifiée si les générateurs utilisés font tous partie d’une seule et même famille de copule archimédienne. Ainsi pour une copule hiérarchique à n niveau de hiérarchie, avec des générateurs ψk de paramètre de dépendance θk issus d’une même famille, ψ0 étant le générateur de la copule racine et ψn celui de la copule de niveau de hiérarchie le plus élevé, cela revient à imposer à ce que les θk soient croissants. Ceci est valable pour toutes les familles copules Archimédiennes classiques (Frank, Gumbel, Clayton), et impose donc de coupler en premier lieu les risques les plus corrélés. Lorsque la structure hiérarchique comporte des générateurs issus de différentes familles archimédiennes, la condition énoncée auparavant devient bien plus complexe, voir pour cela les travaux de Marius Hofert (2010). En conséquence, les combinaisons entre générateurs de différentes familles seront exclus dans l’exemple qui suit. 10.1.4 Exemple Afin d’avoir un aperçu de l’utilité d’une construction hiérarchique en grande dimension, nous considérons la copule de Clayton hiérarchique C9 suivante : C9 (u) = Cψ0 (u3 , u6 , u1 , Cψ1 (u9 , u2 , u7 , u5 , Cψ2 (u8 , u4 ))) (10.2) avec θ0 = 0.5, θ1 = 2, θ2 = 8 Cette structure de dimension 9 comporte trois niveaux de hiérarchie et C9 définit bien une copule car les générateurs étant tous issus de la famille de Clayton, nous vérifions bien : 0 6 θ0 6 θ1 6 θ2 . Une représentation de C9 et de ces différents paramètres de dépendance sous forme d’arbre est donné figure 10.2. 89 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN F IGURE 10.2 – Représentation sous forme d’arbre de la copule hiérarchique de Clayton C9 Afin de vérifier les propriétés particulières de cette structure, il est possible de simuler une telle copule et de tracer les dépendogrammes obtenus pour chaque composante, sous forme de matrice. La figure 10.3 (obtenue avec le package nacopula de R) permet alors de bien résumer la structure de dépendance obtenue avec la copule de Clayton hiérarchique C9 , bien plus riche qu’avec une copule de Clayton classique. En effet, nous observons alors que la dépendance entre les risques u4 et u8 est la plus forte, ce qui est logique puisqu’ils sont liés avec le paramètre de dépendance le plus grand, θ2 = 8. Nous observons ensuite clairement les deux autres niveaux de dépendance : les risques u9 , u2 ,u7 et u5 sont liés à u4 et u8 avec une dépendance moins élevée (θ4 = 2), tandis que les risques u3 , u6 et u1 sont tous liés aux autres par le coefficient le plus faible, proche de l’indépendance (θ0 = 0.5). F IGURE 10.3 – Dépendogrammes obtenus entre les 9 risques couplés par la copule hiérarchique de Clayton C9 90 I.S.F.A. 10.1.5 Mémoire d’actuariat A. R ENAUDIN Avantages et inconvénients L’intérêt d’une telle structure par rapport à une copule archimédienne classique est immédiat et a été montré au paragraphe précédent. Cela permet de s’affranchir des propriétés des copules elliptiques parfois peu réalistes pour modéliser la dépendance entre risque (notamment la symétrie des dépendance de queue) tout en conservant leur principal intérêt, à savoir la différenciation et la spécification des dépendance entre risque. De plus, la structure sous forme d’arbre est assez souple et permet d’avoir une approche naturelle et compréhensible par tout le risk management de l’entreprise. L’utilisation d’une telle copule dans le cadre de l’exemple traité au chapitre précédent dans le cadre de l’ICAAP (§9.2.1p.81) pourrait paraitre naturel car cela reviendrait à utiliser une seule et même structure hiérarchique Archimédienne pour l’agrégation, recréant naturellement la hiérarchie des étapes 1 et 2. Cependant, le nombre de risques à coupler serait très important et les possibilités quasiment infinies (sans compter les différents choix possibles des générateurs intervenant dans la structure), tout cela sans qu’aucune solution soit mathématiquement préférable à une autre faute de données suffisantes pour en évaluer l’adéquation. De plus, la récursivité induite par une telle structure engendre des temps de calcul très importants en dimension élevée. 10.2 Les vine copulas 10.2.1 Motivations Afin de contourner les restrictions induites par l’approche précédente, il est possible d’utiliser une technique assez intuitive basée sur la décomposition en copules bivariées : les vine copulas. Elles ne constituent pas en toute rigueur une famille de copule telle qu’entendue précédemment, et il s’agit plutôt d’une manière de décomposer la densité multivariée des risques considérés au moyen de copule bivariées. Elles ont été originellement proposées par Bedford et Cooke (2001, 2002). C’est une approche assez similaire à la précédente (les structures de dépendances obtenues s’écrivent naturellement sous forme d’arbres, d’où leur nom de vine, “plante grimpante” en anglais), qui bénéficie d’une souplesse plus grande dans le choix des familles des copules et de leur paramètre de dépendance. 10.2.2 La décomposition de Vine (Vine decomposition) Rappel Nous avons vu à la section précédente que les les structures hiérarchiques archimédiennes sont obtenues directement depuis l’écriture de la fonction de répartition de la copule, ou des risques considérés. Ainsi pour la copule hiérarchique de dimension 3 représentée figure 10.1 p.89 cela revient à considérer, avec des notations évidentes, la fonction de répartition tri-variée suivante : F (x1 , x2 , x3 ) = Cψ0 (F (x1 ), Cψ1 (F (x2 ), F (x3 ))) Principe Pour obtenir une décomposition en vines copulas, l’idée est désormais de considérer la décomposition de la densité multivariée des risques considérés en n’utilisant que des copules bivariées conditionnelles. En dimension 3, il est ainsi possible d’écrire : f (x1 , x2 , x3 ) = f (x2 ) .f (x1 | x2 ) .f (x3 | x1 , x2 ) 91 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN où en utilisant la formule de Bayes f (x1 | x2 ) = c12 (F (x1 ) , F (x2 )) .f (x1 ) avec c12 (F (x1 ) , F (x2 )) la densité de la copule liant les deux marginales F (x1 ) et F (x2 ). En gardant les même notation, il vient donc : f (x3 | x1 , x2 ) = c13|2 (F (x1 | x2 ) , F (x3 | x2 )) .f (x3 | x2 ) = c13|2 (F (x1 | x2 ) , F (x3 | x2 )) .c23 (F (x2 ) , F (x3 )) .f (x3 ) Et finalement : f (x1 , x2 , x3 ) = f (x1 ) .f (x2 ) .f (x3 ) ×c12 (F (x1 ) , F (x2 )) .c23 (F (x2 ) , F (x3 )) (10.3) ×c13|2 (F (x1 | x2 ) , F (x3 | x2 )) Cette décomposition est appelée décomposition de Vine, et est généralisable en dimension n (voir [27] pour les formules de décompositions d’ordres supérieurs à 3 et les algorithmes pour les obtenir). Quelque soit la dimension, la décomposition finale ne fait intervenir que des copules bivariées (vine copulas), ce qui constitue l’intérêt de l’approche. Remarquons enfin que cette décomposition n’est pas unique et qu’il est possible d’en obtenir d’autres en permutant les indices des variables. Ces différentes décompositions sont alors appelées C-Vine ou D-Vine (voir de nouveau [27] pour leurs définitions exactes et leurs propriétés). La décomposition de Vine (10.3) aboutit alors naturellement à une structure de dépendance par arbre, dessinée en figure 10.4. Observons que les différents niveaux de l’arbre correspondent aux différentes lignes de l’équation de décomposition (10.3). F IGURE 10.4 – Représentation de la décomposition en vine copula de 3 risques selon l’équation (10.3) 10.2.3 Avantages et inconvénients L’utilisation de structures de Vine permet de représenter des types de dépendances extrêmement divers, sans pour autant être limité au niveau des paramètres de dépendance et des choix des copules. En effet, le choix des copules bivariées intervenant dans la décomposition est libre, ainsi que la valeur de leur paramètre de dépendance. Ce sont donc des structures très souples pouvant théoriquement s’adapter à tout type de modélisation de dépendance. 92 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN L’unique limitation de cette méthode est le nombre de différentes décompositions à considérer, qui en grande dimension s’avèrent très élevés (n!/2 possibilités de décomposition en dimension n > 4). Théoriquement, il faudrait pouvoir toutes les examiner et se fixer un critère d’adéquation pour en choisir la meilleure, ce qui est impossible en pratique à cause du nombre limité de données et du temps de calcul nécessaire. Toutefois cette approche reste un champ de recherche encore assez vaste et prometteur, et peu utilisé en pratique. Le lecteur pourra se référer à [28] pour une première application de ce type de structure à des données issues de risques opérationnels bancaires, en dimension 10. 93 Conclusion et perspectives Dans ce mémoire, nous avons travaillé sur la quantification des risques opérationnels bancaires dans le contexte règlementaire actuel (Bâle II). Les exemples applicatifs que nous avons présentés concernent les données du Groupe Crédit Agricole. Nous avons essayé d’apporter des solutions aux problèmes pratiques des risk managers et plus généralement aux difficultés pouvant être rencontrés par ceux travaillant dans le domaine de la gestion quantitative des risques. En particulier, nous avons proposés des solutions aux problèmes d’estimation de la sévérité (biais, non-convergence de l’algorithme liée aux données tronquées...) dans le cadre du calcul de charge en capital au titre du pilier 1, et nous avons ensuite proposé un modèle permettant de calculer le capital économique au niveau Groupe en agrégeant les risques des différentes entités et permettant de modéliser leur dépendances, dans le cadre du pilier 2. En effet, l’ajustement de la sévérité est un paramètre déterminant dans le modèle de calcul des fonds propres destinés à couvrir le risque opérationnel. Lors de la première partie, nous avons proposé des méthodes basées sur la minimisation d’une distance inter-quantiles, qui fournit de bons résultats par rapport aux méthodes classiques dérivées du maximum de vraisemblance ou des tests d’adéquation. Ce sont, avec la MMG, les seules méthodes présentant des résultats d’estimation acceptables dans tous les cas de figure (données simulées selon un mélange de loi, ou données réelles). De plus, contrairement aux autres méthodes présentées, leurs comportements est stable lorsque le nombre de données disponibles est faible, ou quand le modèle ajusté est mal spécifié. Nous avons proposé une calibration des paramètres apparaissant naturellement dans la méthode QD fournissant de meilleurs résultats sur les queues de distribution, dont l’impact est déterminant pour le calcul de la charge en capital. Cette méthode d’estimation permet alors d’obtenir un montant de fonds propres plus représentatif de l’exposition de la banque au risque opérationnel pour chaque catégorie de risque, ce qui est l’enjeu principal du modèle. Allié à une méthodologie d’agrégation par copules, dont les hypothèses sont plus réalistes qu’une agrégation par formule fermée avec hypothèse gaussienne, cela nous a permis de calculer un capital économique plus en adéquation avec les risques opérationnels encourus par la banque. Le dernier chapitre de ce mémoire reste le plus ouvert. Abandonnant les structures de dépendance basées sur des hypothèses de lois elliptiques, nous avons donné d’autres formes de copules (hiérarchiques, Vines...) qui pourraient mieux s’adapter à la modélisation des dépendances rencontrées dans le domaine du risque opérationnel. Des travaux restent à mener dans cette voie, notamment lorsque l’historique et la quantité de pertes collectée sera plus importante, ce qui permettrait d’avoir une idée plus précise de la forme de la dépendance entre les différentes catégories de risque opérationnel et d’en estimer plus fidèlement les paramètres. Terminons enfin en précisant que des travaux ont aussi été menés dans le cadre de la théorie des valeurs extrêmes, mais qu’ils ont été volontairement exclus de ce mémoire. En effet, l’utilisation d’une telle approche dans le modèle LDA pose encore un certain nombre de problèmes insurmontables en pratique. Citons entre autres le choix du seuil de modélisation des extrêmes qui doit se faire de manière subjective (en arbitrant entre quantité de données et biais des estimations) , la sensibilité du capital à ce seuil, l’obtention de potentielles distributions de sévérités à moyennes infinies dont la convolution produit des 94 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN capitaux totalement irréalistes. Dans ce cadre, la question de la méthode d’estimation des paramètres de la loi GPD (Generalized Pareto Distribution) reste tout autant cruciale, notamment en raison des ’mauvaises’ propriétés des méthodes usuelles (Maximum likelihood et Probability Weighted Moments). Nous avons alors constaté des améliorations en utilisant la méthode QD, dont la définition peut aisément se transposer à tous les types de lois. 95 Bibliographie [1] F RACHOT A, M OUDOULAUD O, R ONCALLI T (2003), Loss Distribution Approach in Practice, The Basel Handbook : A Guide for Financial Practitioners [2] R ONCALLI T (2009), La gestion des risques financiers, 2ème édition, Economica [3] H ANSEN LP (1982), "Large Sample Properties of Generalized Method of Moments Estimators", Econometrica, 50, 1029-1054 [4] H ANSEN LP, H EATON J, YARON A (1996), “Finit-Sample Properties of Some Alternative MMG Estimators." Journal of Business and Economic Statistics, 14, 262-280. [5] C HAUSSE P (2010), “Computing Generalized Method of Moments and Generalized Empirical Likelihood with R." Journal of Statistical Software, 34(11), 1-35. [6] F RACHOT A , G EORGES P, R ONCALLI T (2001), “Loss Distribution Approach for operational risk”, Groupe de Recherche Opérationnelle, Crédit Lyonnais, France [7] RANNEBY B (1984), “The Maximum Spacing Method. An Estimation Method Related to the Maximum Likelihood Method”, Swedish University of Agricultural Sciences [8] COX D. R, HINKLEY D. V (1974), “Theoretical statistics”. Chapman & Hall, London [9] LA R ICCIA V, WEHRLY T (1985), “Asymptotic Properties of a Family of Minimum Quantile Distance Estimators” Journal of the American Statistical Assocation, Vol.80, No.391 [10] CHENG R.C.H, TRAYLOR L (1995), “Non-regular maximum likelihood problems (with discussions)”. J. Roy. Statist. Soc. Ser. B 57, 3-44 [11] CHENG R.C.H, AMIN N.A.K (1983), “Estimating parameters in continuous univariate distribution with a shifted origin” J. Roy. Statist. Soc. Ser. B 45, 394-403 [12] WHITE H (1982),”Maximum Likelihood Estimation of Misspecified Models”, Econometrica, Vol.50, No.1 [13] CHERNOBAI A, RACHEV S, FABOZZI F (2005), “Composite Goodness-of-Fit Tests for Left-Truncated Loss Samples”, Departement of Statistics and Applied Probability, University of California, USA [14] ERGASHEV B (2008), “Should Risk Managers Rely on Maximum Likelihood Estimation Method While Quantifying Operational Risk?”, The Journal Of Operational Risk, Vol. 3, No.2 [15] WOLFOWITZ J (1953) “Estimation by the Minimum Distance Method”, Annals of the institute of Statistical Mathematics, Springer 96 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN [16] PARR W.C. (1981) “Minimum distance estimation: a bibliography”, Commun. Stat. Theory Meth. [17] M ARCEAU E (2010), “Modèles et méthodes actuariels pour l’évaluation quantitative des risques” (polycopié ISFA) [18] D ENUIT M, C HARPENTIER A (2004), Mathématiques de l’assurance non-vie, Tomes I et II, Economica [19] D ENAULT M (2001), “Coherent allocation of risk capital”, Ecole des H.E.C. (Montréal) [20] PANJER H (2001), “Measurement of risk, solvency requirement and allocation of capital within financial conglomerates”, Departement of Statistics and Actuarial Science, University of Waterloo [21] E-convergence (2004), “Allocation du capital économique lié aux risques opérationnels dans un groupe” [22] C LAUSS P (2011) “Théorie des copules”, Cours ENSAI [23] N ELSEN RB (1999) “An introduction to Copulas”, Lectures Notes in Statistics, Springer [24] L EHERISSE V (2011), “Gestion des risques bancaires”, Cours ENSAI [25] PANJER H (1981), “Recursive Evaluation Of A Family Of Compound Distributions”, Astin Bulletin 12, pp. 22-26 [26] M C N EIL A J (2008), “Sampling Nested Archimedean Copulas", Journal of Statistical Computation and Simulation, 78, 567-581. [27] A AS K, C ZADO C, F RIGESSI A, B AKKEN H (2009), “Pair copula constructions of multiple dependence”, Insur. Math. Econ., 44, 182–198 [28] G UEGUAN D, H ASSANI B (2011), “Multivariate VaR for Operationnal Risk Computation : A Vine Structure Approach”, Université Paris 1 PanthéonSorbonne, Working Paper [29] G AMONET J (2009), “Modélisation du risque opérationnel dans l’assurance”, mémoire d’actuariat , Centre d’Etudes Actuarielles 97 Table des figures 1.1 Boxplot pour différentes catégories de pertes opérationnelles . 5 2.1 Les trois piliers Bâle II . . . . . . . . . . . . . . . . . . . . . 2.2 Illustration de la répartition du capital entre risque de crédit, opérationnel et risque de marché dans une grande banque . . 8 3.1 Les différentes étapes de la méthode LDA pour l’estimation de la charge en capital . . . . . . . . . . . . . . . . . . . . . . . 3.2 Comparaison des distributions issues du modèle LDA avec la prise en compte de polices d’assurance (courbes rouges) et sans (en bleu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Biais des estimateurs de µ et σ obtenus avec le choix W = I . 4.2 Biais des estimateurs de µ et σ obtenus avec le choix W = Wopt 4.3 Comportement du terme au dénominateur de la vraisemblance pour H = 1000 . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Opposé de la log-vraisemblance d’un échantillon réel de la catégorie ’dommages’ (banque de détail) en fonction de µ, pour σ = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Densité empirique de pertes réelles de la catégorie ’dommage’ 4.6 Valeur absolue de l’écart relatif sur l’estimation des paramètres µ et σ par MMG . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Distances K-L entre deux distributions normales pour différents paramètres (source : présentation de Rudolf Kulhavy, “A Kullback-Leibler Distance Approach to System Identification”, Academy of Sciences of the Czech Republic) . . . . . 5.2 Principe de l’estimation par Maximum Spacing (source : Wikipedia) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 QQ-plots log-normaux avec les paramètres estimés par MS et MMG, pour la fraude externe de la banque d’investissement . 5.4 Fonctions quantiles empiriques (en bleu) et quantiles empiriques interpolés (en rouge) ; illustration sur un échantillon de fraude monétique . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Quantiles choisis uniformément (en rouge) dans un échantillon réel (montants de pertes en échelle logarithmique) . . . . . . 5.6 Estimations de µ (bleu) et σ (vert) sur données simulées LN (8, 2) et LN (12, 1.5) de tailles n = 100 (en haut) et n = 1000 (en bas) en fonction du nombre de quantiles utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 13 17 19 29 29 31 32 33 34 36 37 39 42 44 44 I.S.F.A. Mémoire d’actuariat A. R ENAUDIN 5.7 Quantiles exponentiellement répartis (en rouge) dans un échantillon trié de la catégorie ’exécution’ avec m = 5 (montants en échelle logarithmique) . . . . . . . . . . . . . . . . 5.8 Influence du paramètre m sur l’estimation des paramètres de sévérité (µ en bleu, σ en vert) . . . . . . . . . . . . . . . . . 6.1 Biais relatifs des estimateurs de µ (en haut) et σ (en bas) pour les 12 modèles simulés, avec N=1000 simulations . . . . . . 6.2 Indicateurs de précision pour µ (à gauche) et σ (à droite) sur les 12 modèles simulés, avec N=1000 simulations . . . . . . 6.3 Coefficients de variation obtenus pour les 12 modèles pour µ (à gauche) et σ (à droite), avec N=1000 simulations . . . . 7.1 Densité bivariée de la copule normale (ρΣ = 0.6) . . . . . . . 7.2 Densité bivariée de la copule de Student (ν = 1, ρΩ = 0.6) . . 7.3 Mesure de dépendance des extrêmes en fonction du niveau de corrélation pour une copule de Student de dimension 2 . . . . 7.4 Densités bivariées de copules Archimédiennes usuelles, de paramètre θ = 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5 Densité bivariée de deux risques gaussiens corrélés par une copule normale (ρ = 0.4) . . . . . . . . . . . . . . . . . . . . . 7.6 Densité bivariée de deux risques gaussiens corrélés par une copule de Gumbel (θ = 5) . . . . . . . . . . . . . . . . . . . . 8.1 Niveau du capital agrégé (niveau 99.9%) entre deux catégories de risques en fonction de leur coefficient de corrélation linéaire ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Allocation du capital agrégé selon la CaR99.9% entre deux catégories de risques en fonction de leur coefficient de corrélation ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Illustration de l’agrégation de deux pertes annuelles par copule 9.2 Principe d’agrégation des risques opérationnels proposé (bottom-up en 2 étapes) . . . . . . . . . . . . . . . . . . . . 9.3 Structure générale d’agrégation bottom-up des risques dans Solvabilité II (QIS 5) . . . . . . . . . . . . . . . . . . . . . . 10.1 Représentation sous forme d’arbre d’une copule archimédienne hiérarchique en dimension 3 . . . . . . . . . . . . . . . . . . 10.2 Représentation sous forme d’arbre de la copule hiérarchique de Clayton C9 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Dépendogrammes obtenus entre les 9 risques couplés par la copule hiérarchique de Clayton C9 . . . . . . . . . . . . . . . . 10.4 Représentation de la décomposition en vine copula de 3 risques selon l’équation (10.3) . . . . . . . . . . . . . . . . . . . . . 99 45 46 50 51 52 66 66 67 68 70 70 74 74 80 81 83 89 90 90 92 Liste des tableaux 1.1 Classification des catégories de risque (ELs) pour le risque opérationnel selon Bâle II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Classification lignes métier (BLs) pour le risque opérationnel selon Bâle II . . . . 4 4 4.1 Résultat des différentes méthodes d’optimisation de la log-vraisemblance sur données réelles (catégorie ’dommages’ de la banque de détail) . . . . . . . . . . 33 5.1 Résultats d’estimation sur la catégorie Fraude Interne de la banque d’investissement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2 Caractéristiques des échantillons de pertes mis en évidence dans le backtesting 2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.3 Cohérence et convergence des différentes méthodes d’estimation sur les 12 échantillons issus du backtesting 2009 . . . . . . . . . . . . . . . . . . . . . . . . . . 48 6.1 Valeurs des CaRs (MC) calculées sur modèles hybrides et écart relatif par rapport à la CaR réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 7.1 Allocation entre les 3 entités considérées au prorata de leur CaR . . . . . . . . . 57 7.2 Allocation entre les 3 entités considérées selon une méthode cohérente . . . . . . 57 7.3 Expressions des générateurs et des copules Archimédiennes associées en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 9.1 Matrice de corrélation fournie par le QIS 5 entre les modules de risques de la formule standard de Solvabilité II . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Valeur et répartition des capitaux non diversifiés pour chaque pôle du Groupe Crédit Agricole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Capitaux obtenus via la formule d’agrégation Gaussienne . . . . . . . . . . . 9.4 Capitaux obtenus via une agrégation par copule Gaussienne, et allocation du capital économique du Groupe selon la contribution de chaque pôle métier . . . 9.5 Capitaux obtenus via une agrégation par copule de Student (ν = 3), et allocation du capital économique du Groupe selon la contribution de chaque pôle métier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 . 83 . 84 . 86 . 86 . 87