"Težina dokaza" (engleski weights of evidence, WoE) i informaciona vrijednost (engleski information value, IV) predstavljaju najčešće korišćene metrike prilikom razvoja rejting modela kreditnog rizika.
Zadatak: Importovati woe_iv.csv fajl dat u prilogu, a zatim importovanom data frameu db dodati novu variablu maturity.g , definisanu na način da se vrijednosti varijable maturity grupišu u 5 (po broju observacija) približno jednakih grupa. Dalje:
izračunati WoE i IV nove varijable maturity.g u odnosu na binarnu zavisnu varijablu bo ;
izračunati WoE i IV nove varijable maturity.g u odnosu na neprekidnu zavisnu varijablu co .
> #naredne komande izvrsiti ukoliko paketi vec nisu instalirani
> #install.packages("Hmisc")
> #install.packages("dtplyr")
> #install.packages("dplyr")
> library(Hmisc)
> library(dtplyr)
> library(dplyr)
>
> #importovati woe_iv.csv fajl
> db <- read.csv("woe_iv.csv", header = TRUE)
> str(db)
'data.frame': 10000 obs. of 3 variables:
$ bo : int 0 0 0 0 0 0 0 0 0 0 ...
$ co : num 0.1361 0.0941 0.0847 0.0122 0.0122 ...
$ maturity: int 18 9 12 12 12 10 8 6 18 24 ...
> #bo - dobar (0) / los (1) indikator
> table(db$bo)
0 1
9500 500
> #kreirati grupe rocnosti kredita
> db$maturity.g <- cut2(db$maturity, g = 5)
> #kreirati data.table objekat
> db <- lazy_dt(db)
> db
Source: local data table [10,000 x 4]
Call: `_DT1`
bo co maturity maturity.g
<int> <dbl> <int> <fct>
1 0 0.136 18 [14,22)
2 0 0.0941 9 [ 4,11)
3 0 0.0847 12 [11,14)
4 0 0.0122 12 [11,14)
5 0 0.0122 12 [11,14)
6 0 0.0122 10 [ 4,11)
# ... with 9,994 more rows
# Use as.data.table()/as.data.frame()/as_tibble() to access results