Metodologia de desenvolvimento do Phi RDF

Versão 1.0.0 - 27/05/2023

O Phi RDF é um modelo de machine learning para prever novos casos de COVID-19 em municípios do Rio Grande do Sul, utilizando bancos de dados públicos, como o SIVEP-Gripe, SRAG, SI-PNI e eSUS AB.

Para prever novos casos de COVID-19 em municípios do Rio Grande do Sul, foram avaliados diversos modelos de machine learning, incluindo Extreme Gradient Boosting, Random Forest Regressor, Elastic Net, Lasso Regression, Bayesian Ridge, Lasso Least Angle Regression, Linear Regression, Ridge Regression, Huber Regressor, Extra Trees Regressor, Light Gradient Boosting Machine, Decision Tree Regressor, K-Neighbors Regressor, AdaBoost Regressor, Orthogonal Matching Pursuit, Dummy Regressor, Passive Aggressive Regressor e Least Angle Regression.

A metodologia adotada dividiu os dados em dois conjuntos: treinamento (80%) e teste (20%). O conjunto de treinamento foi utilizado para treinar os modelos, enquanto o conjunto de teste foi reservado exclusivamente para avaliar o desempenho desses modelos. Além disso, o conjunto de treinamento foi dividido novamente usando a metodologia de KFold, com um valor de K igual a 10. Essa técnica permite criar 10 subconjuntos diferentes de treinamento e validação, permitindo que cada modelo seja treinado 10 vezes.

Após o treinamento dos modelos, a média dos resultados obtidos nas 10 iterações foi calculada. Essa média foi usada para selecionar o modelo final para a ferramenta Phi RDF, que tem o objetivo de prever novos casos de COVID-19 nos municípios do Rio Grande do Sul.

O conjunto de teste não foi utilizado em nenhuma etapa de treinamento, sendo reservado exclusivamente para avaliar o desempenho final do modelo selecionado. As métricas utilizadas para avaliar o desempenho do modelo foram escolhidas com base no estado da arte da literatura de modelos de regressão. Essas métricas fornecem uma visão sobre a capacidade do modelo em fazer previsões precisas.

Além dos modelos de machine learning mencionados, também é importante destacar o funcionamento do SHAP (Shapley Additive Explanations). O SHAP é uma técnica que ajuda a interpretar a importância de cada variável de entrada no processo de tomada de decisão do modelo de machine learning. Ele fornece uma explicação sobre como cada variável contribui para a previsão feita pelo modelo.

Por exemplo, se o modelo prevê um alto número de casos de COVID-19 em um determinado município, o SHAP pode mostrar quais variáveis, como taxas de vacinação, número de leitos disponíveis ou densidade populacional, tiveram maior influência nessa previsão. Isso ajuda a entender quais fatores são mais relevantes na ocorrência de novos casos e fornece insights valiosos para a formulação de políticas públicas e tomada de decisões.

Para mais informações ou dúvidas: contato@phihc.com