Métodos Estatísticos para Análise de Dados e Recuperação Estratégica

Resumo

O Objetivo deste artigo é discorrer sobre meus aprendizados vinculados às atividades desenvolvidas no setor de recuperação de crédito. Minha principal função durante esta experiência foi como gerente de planejamento e neste período estive em contato com todo o fluxo cobrança, desde o processo de construção de “esteiras” de acionamentos a ações massivas por multicanais, e neste, precisei fazer diversas pesquisas pois tinha como um dos desafios identificar e priorizar de forma assertiva o público alvo para alcançar a meta com menor esforço possível. Portanto buscarei discorrer aqui sobre uma fundamental etapa que aprendi neste processo, a modelagem.

Fundamentos teóricos

Antes de mergulhar em como fazer o SCORE, vamos entender o que é o SCORE e tentar explicar suas principais diferenças:

Crédit Scoring: A concessão de crédito é uma decisão sob condições de incertezas. Em empréstimos, vendas aprazo, prestação de servições… Quer o crédito seja solicitado ou concedido pelo credor, sempre existe a possibilidade de perda. Se o credor puder estimar a probabilidade de que esta perda ocorra, sua decisão será mais confiável. Em termos gerais, quando houver perda em uma operação de credito, diremos que o cliente foi “mau”, caso contrario, diremos que o cliente foi “bom” e eventualmente poderemos definir clientes intermediários.

Ok, e o que fazer quando o cliente já é inadimplente?

Collection scoring: É um tipo de modelo construído buscando classificar o risco do cliente em termos de pagamentos futuros. O público deste modelo já é um público inadimplente. Logo, o objetivo do modelo é justamente fornecer uma medida (score), que ordene tais clientes numa escala numérica de probabilidade de recuperação/regularização da dívida. O collection score geralmente são utilizados como instrumentos para orientar as estratégias de cobrança, onde os clientes são classificados em grupos de acordo com seu score e para cada classe se aplica diferentes estratégias. O uso destes modelos não só melhora o relacionamento com os clientes como também reduz as despesas de cobranças desnecessárias, auxiliando na previsão de perdas e custos.

Entendido as diferenças e aplicações vamos a… “mãos a obra”!

Roteiro para o desenvolvimento de um modelo:

– Planejamento e definições:

– Planejamento e seleção da amostra:

– Identificação das variáveis potenciais:

– Analise e tratamento de dados:

– Cálculo da fórmula de escoragem:

– Análise e validação da fórmula:

– Ajuste final do modelo:

Modelagem: Planejamento e definições:

A Primeira etapa da construção do modelo consiste na definição exata de qual é o público alvo do modelo para o qual será gerado um Score (PF, PJ, varejo, consignado…). Nesta etapa também é importante identificar e definir o grupo que classifica o “bom” pagador e o diferencie do “mau” pagador bem como identificar e classificar os “intermediários”.

Como exemplo, vamos usar um período de performance para definir o perfil “BOM” usando a seguinte hipótese: Se um determinado indivíduo faz a quitação de seus débitos ou um outro indivíduo que cumpre o parcelamento sem quebras e sem atrasos estes podem ser considerados como “BONS” e os demais como “MAUS”, definido isto é necessário que se faça uma análise de um período histórico para identificar e definir em que momento um determinado conjunto de indivíduos quebram o acordo e passa do grupo “bom” para grupo “Intermediário” ou diretamente para o grupo dos “MAUS” pagadores. Esta definição de como será marcada a performance de cada indivíduo inadimplente varia de acordo com a visão de cada empresa e por isto é importante a participação da operação nesta etapa, e ainda assim nem sempre é tão simples definir ou separar os grupos de “BONS” e “MAUS” já que podem existir subgrupos no conjunto inadimplente e isso gera uma maior dificuldade de categorização, lembrando que a população “indeterminada” também estará presente no modelo então a equação gerada deverá ser capaz de ordenar bem este subgrupos e também de definir claramente as classes de riscos relativos.

Modelagem: Identificação das variáveis potenciais

O foco desta etapa deve ser filtrar variáveis com o maior poder explicativo em relação a performance, normalmente se seleciona centenas de variáveis potenciais e as submetem a diversos testes estatísticos buscando definir um pequeno subconjunto de variáveis finalistas para o modelo e estas devem garantir que o modelo seja realmente coerente com a realidade:

Dentre as variáveis, a de resposta do modelo deverá ser um reflexo de como a empresa enxerga o critério que difere um individuo bom de um mau pagador e, a eficácia de um modelo depende diretamente das informações utilizadas para avaliar os riscos do cliente e das operações.

Compreendido isto, vamos para a próxima etapa.

Modelagem: Planejamento e seleção da amostra:

Não há uma quantidade exata de dados a serem tidos como amostras, o importante é que a amostra seja suficientemente grande para que possa ser dividida em duas partes, uma para desenvolvimento e outra para validação do modelo.

Modelagem: Analise e tratamento de dados:

Apesar das soluções técnicas existentes que são capazes de analisar grande quantidade de dados em segundos, é importante que se utilize de uma etapa de transformação destes dados, isto envolve alguns conhecimentos em *ETL (Extração, Transformação e Carga):

Por existir uma constante mudança do perfil do público inadimplente, um modelo muito bom de Collection Score pode buscar maximizar a regularização destes indivíduos, entretanto se ele for bem sucedido, tal fato irá mudar o público inadimplente na base, tornando cada vez mais o bureau em um público pior, o que torna sempre necessária a revisão ou a criação de um novo modelo de cobrança. A realização do ETL também é importante para tratar os eventos de cobrança que sofrem muitos impactos sazonais como 13°, feriados, greves, etc.

Modelagem: Cálculo da fórmula de escoragem:

Existem diversas formas de se obter a fórmula ou regra para discriminar o modelo, se pode optar por uma delas ou realizar uma fusão, vou tentar esclarecer alguns métodos de forma horizontal, buscarei esclarecer suas particularidades, embora alguns tenham muitas semelhanças.

– Técnicas Estatísticas:

– Técnicas de Inteligência Artificial:

Uma rede neural artificial é composta por várias unidades de processamento, cujo funcionamento é bastante simples. Essas unidades, geralmente são conectadas por canais de comunicação que estão associados a determinado peso. As unidades fazem as operações apenas sobre seus dados locais, que são entradas recebidas pelas suas conexões. O comportamento inteligente de uma Rede Neural Artificial vem das interações entre as unidades de processamento da rede.

Algoritmos Genéticos (AG) são implementados como uma simulação de computador em que uma população de representações abstratas de solução é selecionada em busca de soluções melhores. A evolução geralmente se inicia a partir de um conjunto de soluções criado aleatoriamente e é realizada por meio de gerações. A cada geração, a adaptação de cada solução na população é avaliada, alguns indivíduos são selecionados para a próxima geração, e recombinados ou mudados para formar uma nova população. A nova população então é utilizada como entrada para a próxima iteração do algoritmo.

Modelagem: Análise e validação da fórmula:

Após a escolha e aplicação de um dos métodos acima é hora de testarmos o modelo em safras mais recentes, fora do período de modelagem e verificarmos quão bem ele consegue diferenciar o público “bom” do público “mau”. Para isso utilizaremos o teste de K-S (Kolmogorov-Smirnov) existem outros, mas este é o mais comumente utilizado.

A estatística de Kolmogorov-Smirnov (K-S) se deseja, a partir de duas amostras retiradas de populações possivelmente distintas, testar se duas funções de distribuições associadas as duas populações são idênticas ou não. A estatística K-S mede o quanto estão separadas as funções de distribuições empíricas dos escores dos grupos de bons e maus pagadores. Sendo:

a função de distribuição empírica dos bons e maus pagadores, respectivamente, o K-S é dada por:

Em que FB(e) e FM(e) correspondem as proporções de clientes “bons” e “maus” com escore menor ou igual a e. A estatística K-S é obtida através da distância máxima entre essas duas proporções acumuladas ao longo dos escores obtidos pelos modelos, representada na Figura abaixo:

O valor dessa estatística pode variar de 0% a 100%, sendo que o valor máximo indica uma separação total dos escores dos bons e maus clientes e o valor mínimo sugere uma sobreposição total das distribuições dos escores dos dois grupos. Na prática, obviamente, os modelos fornecem valores intermediários entre esses dois extremos.

A interpretação do índice para modelos de Scoring segue, em algumas instituições, a seguinte regra:

  • KS < 10%: indica que não há discriminação entre os perfis de bons e maus clientes;
  • 10% < KS < 20%: indica que a discriminação é baixa;
  • KS > 20%: indica que o modelo discrimina o perfil de bons e maus.

A partir da curva ROC temos a ideia do desempenho do modelo ao longo de toda amplitude dos escores produzidos pelos modelos.

Modelagem: Ajuste final do modelo:

Para garantir o bom funcionamento de um modelo de credit scoring ao longo do tempo é necessário que ele seja monitorado continuamente. O que envolve três grandes atividades:

1 – Auditorias periódicas do processo

2 – Monitoramento da estabilidade populacional

3 – Monitoramento do poder preditivo

Para cada uma dessas atividades, devemos definir “o que”, “como” e “quando” fazer e, principalmente, quais ações corretivas tomar quando detectamos problemas.

Conclusão: 

Este trabalho apresentou um modelo de previsão de recuperação crédito, contemplando a comparação das técnicas de análise discriminante, da regressão logística a redes neurais. As características especiais de cada uma das técnicas foram analisadas com o objetivo de encontrar o modelo com melhor desempenho na predição de bons e maus clientes. Todos os passos para a obtenção de um modelo de previsão de recuperação de crédito foram apresentados, desde a definição da população até os passos para manutenção do modelo. A utilização dos modelos de previsão de risco de crédito elimina a subjetividade da análise, criando um procedimento padronizado de decisão, que pode ser complementado com informações extras que não estejam contempladas no modelo matemático. Desta forma, é possível aumentar a velocidade da recuperação, o que pode permitir o aumento do número de clientes. E Como conclusão final, este estudo confirma que há diferentes técnicas que podem ser utilizadas para o tratamento de dados e predição do pagamento de um crédito concedido. Cada técnica tem suas características e pressupostos que devem ser avaliados para que o modelo construído possa efetivamente ser utilizado pela empresa para fazer previsões de risco.

Abaixo um painel para acompanhamento de Score em QlikView:

 

Fonte:  Leandro Washigton de Souza, publicado no Linkedin em 13.11.2017

Referências Bibliográficas
  1. REGAZZI, A. J. INF 766 – Análise multivariada. Viçosa: Universidade Federal de Viçosa, Centro de Ciências Exatas e Tecnológicas. Departamento de Informática, 2001.
  2. SICSÚ, Abraham Laredo. Credit Scoring: Desenvolvimento, Implantação e Acompanhamento, São Paulo, Blucher 2010.

 

Translate »