Kreditrisikomodellierung und -validierung

pacman::p_load(tidyverse, ggplot2) RW_f = function(LGD, PD, R){ return(LGD * (pnorm(1/sqrt(1-R)*qnorm(PD) + R/sqrt(1-R)*qnorm(0.999))-PD)*12.5*1.06) } rw_data = data_frame(PD = seq(from = 0.001, to = 0.06, length.out = 30) , RW_highCor = RW_f(LGD = 0.45, PD = PD, R = 0.15), RW_lowCor = RW_f(LGD = 0.45, PD = PD, R = 0.04), RW_Standard = rep(0.75, 30) ) ggplot(rw_data, aes(PD)) + geom_line(aes(y = RW_highCor, colour = "RW_highCor")) + geom_line(aes(y = RW_lowCor, colour = "RW_lowCor")) + geom_line(aes(y = RW_Standard, colour = "RW_Standard")) + ylab("Risk Weight") + theme_bw()

pacman::p_load(scorecard) data("germancredit") germancredit = germancredit %>% as_data_frame %>% mutate(creditability = ifelse(creditability == "bad", 1, 0)) m1 = glm( creditability ~ ., family = binomial(), data = germancredit) dt_pred = predict(m1, type = 'response', germancredit) perf_eva(germancredit$creditability, dt_pred)

## $KS ## [1] 0.5252 ## ## $AUC ## [1] 0.8321 ## ## $Gini ## [1] 0.6643 ## ## $pic ## TableGrob (1 x 2) "arrange": 2 grobs ## z cells name grob ## pks 1 (1-1,1-1) arrange gtable[layout] ## proc 2 (1-1,2-2) arrange gtable[layout]

df = tibble("Score" = dt_pred, "hasDefaulted" = germancredit$creditability) %>% arrange(-Score) df = df %>% mutate(cumden = cumsum(hasDefaulted)/sum(hasDefaulted)*100, perpop = (seq(nrow(df))/nrow(df))*100) plot(df$perpop, df$cumden, type="l", xlab="% of Population", ylab="% of Default's")

## [1] "duration.in.month" ## [2] "credit.amount" ## [3] "installment.rate.in.percentage.of.disposable.income" ## [4] "present.residence.since" ## [5] "age.in.years" ## [6] "number.of.existing.credits.at.this.bank" ## [7] "number.of.people.being.liable.to.provide.maintenance.for"

## [1] "status.of.existing.checking.account" ## [2] "credit.history" ## [3] "savings.account.and.bonds" ## [4] "present.employment.since" ## [5] "personal.status.and.sex" ## [6] "other.debtors.or.guarantors" ## [7] "property" ## [8] "other.installment.plans" ## [9] "housing" ## [10] "job" ## [11] "telephone" ## [12] "foreign.worker" ## [13] "creditability"

pacman::p_load(glmnet) rf_as_num = model.matrix(creditability ~ . ,data = GermanCredit)[, -1] glm_mod = glmnet(rf_as_num, GermanCredit$creditability, alpha = 1, family="binomial") plot(glm_mod, xvar="lambda")

cv_glm_mod = cv.glmnet(rf_as_num, ifelse(GermanCredit$creditability=="bad",1,0), alpha = 1, nfolds = 10, family="binomial", type.measure="auc") plot(cv_glm_mod)

require(mlr) GermanCredit = GermanCredit %>% mutate(purpose = as.factor(purpose)) dev_task = makeClassifTask(id = "DEV_data", data = GermanCredit, target = "creditability") ## logistic regression lrn.log = makeLearner("classif.logreg", predict.type = "prob") print(lrn.log )

## Learner classif.logreg from package stats ## Type: classif ## Name: Logistic Regression; Short name: logreg ## Class: classif.logreg ## Properties: twoclass,numerics,factors,prob,weights ## Predict-Type: prob ## Hyperparameters: model=FALSE

lrn.lasso = makeLearner("classif.glmnet", predict.type = "prob") lrn.lasso = setHyperPars(lrn.lasso, par.vals = list("alpha" = 1, "lambda" = 0.02, "s" = 0.02)) print( lrn.lasso )

## Learner classif.glmnet from package glmnet ## Type: classif ## Name: GLM with Lasso or Elasticnet Regularization; Short name: glmnet ## Class: classif.glmnet ## Properties: numerics,factors,prob,twoclass,multiclass,weights ## Predict-Type: prob ## Hyperparameters: s=0.02,alpha=1,lambda=0.02

filter_list = setdiff(getTaskFeatureNames(dev_task), c("age.in.years", "credit.amount")) lrn.log.filter = makePreprocWrapper( learner = lrn.log, train = function(data, target, args) list(data = data[, c(filter_list, target)], control = list()), predict = function(data, target, args, control) data[, filter_list] ) lrn.log.filter$id= "logistic man filter"

set.seed(20180613) n = getTaskSize(dev_task) train.set = sample(n, size = round(2/3 * n)) test.set = setdiff(seq_len(n), train.set) mod1 = train(lrn.log, dev_task, subset = train.set) pred1 = predict(mod1, task = dev_task, subset = test.set) performance(pred1, measures = auc)

rdesc = makeResampleDesc(method = "RepCV", reps = 5, folds = 10, stratify = TRUE) ## this causes samples to be the same for all task rin = makeResampleInstance(rdesc, task = dev_task) #lrn_list = list(lrn, lrn.final.as) lrn_list = list(lrn.log, lrn.log.filter, lrn.lasso) #lrn_list = list(lrn.final.as) bmr = benchmark(lrn_list, dev_task, rin, measures = auc, show.info = FALSE, keep.pred = FALSE) perf = getBMRPerformances(bmr, as.df = TRUE) %>% as_tibble ggplot(data=perf, aes(auc)) + geom_histogram()+ facet_grid(~learner.id) + theme_bw()

## # A tibble: 3 x 6 ## # Groups: task.id [?] ## task.id learner.id mean_auc med_auc q25 q75 ## <fct> <fct> <dbl> <dbl> <dbl> <dbl> ## 1 DEV_data classif.logreg 0.785 0.789 0.770 0.814 ## 2 DEV_data logistic man filter 0.781 0.783 0.760 0.809 ## 3 DEV_data classif.glmnet 0.778 0.787 0.754 0.804

rdesc = makeResampleDesc(method = "Bootstrap", iters = 50, stratify = TRUE) ## this causes samples to be the same for all task rin = makeResampleInstance(rdesc, task = dev_task) bmr = benchmark(lrn_list, dev_task, rin, measures = auc, show.info = FALSE, keep.pred = FALSE) perf = getBMRPerformances(bmr, as.df = TRUE) %>% as_tibble ggplot(data=perf, aes(auc)) + geom_histogram() + facet_grid(~learner.id) + theme_bw()

## # A tibble: 3 x 5 ## learner.id mean_auc med_auc q25 q75 ## <fct> <dbl> <dbl> <dbl> <dbl> ## 1 classif.logreg 0.763 0.764 0.751 0.780 ## 2 logistic man filter 0.759 0.760 0.741 0.777 ## 3 classif.glmnet 0.767 0.763 0.752 0.784

Bischl, Bernd, Michel Lang, Lars Kotthoff, Julia Schiffner, Jakob Richter, Erich Studerus, Giuseppe Casalicchio, and Zachary M. Jones. 2016. “mlr: Machine Learning in R.” Journal of Machine Learning Research 17 (170): 1–5. http://jmlr.org/papers/v17/15-066.html.

Engelmann, Bernd, Evelyn Hayden, and Dirk Tasche. 2003. “Measuring the Discriminative Power of Rating Systems.” Discussion Paper Series 2: Banking and Financial Studies 1. Deutsche Bundesbank.

Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. 2010. “Regularization Paths for Generalized Linear Models via Coordinate Descent.” Journal of Statistical Software 33 (1): 1–22. http://www.jstatsoft.org/v33/i01/.

Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2008. The Elements of Statistical Learning. 2nd ed. Springer New York Inc.

Kuhn, Max. 2008. “Building Predictive Models in R Using the Caret Package.” Journal of Statistical Software, Articles 28 (5): 1–26. doi:10.18637/jss.v028.i05.

Kuhn, Max, and Kjell Johnson. 2013. Applied Predictive Modeling. Springer New York Inc.

R Core Team. 2018. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

Rezac, Martin, and Frantisek Rezac. 2011. “How to Measure the Quality of Credit Scoring Models.” Czech Journal of Economics and Finance 61 (5): 486–507.

Rutkowski, Marek, and Silvio Tarca. 2014. “Regulatory Capital Modelling for Credit Risk.” ArXiv E-Prints, December.

Tasche, Dirk. 2013. “The Art of Probability-of-Default Curve Calibration.” Journal of Credit Risk 9 (4): 63–103.

Tibshirani, Robert. 1996. “Regression shrinkage and selection via the lasso.” J. Royal. Statist. Soc B 58 (1): 267–88.

Wei, Taiyun, and Viliam Simko. 2017. R Package “Corrplot”: Visualization of a Correlation Matrix. https://github.com/taiyun/corrplot.

Xie, Shichen. 2018. Scorecard: Credit Risk Scorecard. https://github.com/ShichenXie/scorecard.

Einleitung

Vorstellung des Vortragenden

Themen des Vortrags

Kreditrisikomodellierung

Eigenmittelhinterlegung

Gesetzliche Basis

Risikogewicht

Ein Beispiel

Risk weights abhängig von PD und R

Mathematik hinter den Risikogewichten

Modellierung und Validierung

Modellierung der Bonität von Kunden

Logistische Regression

Ridge Regression and LASSO 1

Ridge Regression and LASSO 2

Kalibrierung

Validierung

Trennschärfe

ROC und KS

Cumulative accuracy profile (CAP)

Kalibrierungstest

Machine Learning

Basics

Resamplingverfahren

Bootstrap und Kreuzvalidierung

Machine Learning in R

Korrelationsanalyse

Anwendung des LASSO-Modells

MLR Set-up

In-Sample Performance

Out-of-Sample Performance

Kreuzvalidierung

Bootstrap

Referenzen