Publicada em

21/02/2017

Ana Claudia Ritt

206 – Análise de relacionamentos em conjuntos de dados de múltiplas fontes utilizando gradient boosting

Resumo

A busca por conhecimento a partir de um conjunto de dados possibilita o embasamento científico na tomada de decisões e definição de prioridades estratégicas em diversos segmentos corporativos. A percepção do cliente neste contexto é uma informação valiosa para os objetivos institucionais. No entanto, esta informação apenas não é suficiente para aprimoramento da qualidade e melhoria contínua dos processos internos. A identificação de relacionamentos entre a satisfação do cliente e indicadores internos permite reconhecer padrões, estreitar o monitoramento de fatores com maior impacto nos resultados, antecipar tendências e direcionar esforços para prevenir quedas de rendimento. O presente estudo utiliza o algoritmo Gradient Boosting em um conjunto de dados de três diferentes fontes para identificar relacionamentos entre variáveis e estimar valores futuros baseado nos dados atuais. Este algoritmo é apontado como um dos mais promissores das últimas décadas para classificação, regressão e ranking. Através de simulações, constrói-se o modelo preditivo em cenários que incluem pré-processamento por análise de componentes principais e extração de variáveis altamente correlacionadas. O modelo elaborado é inserido em uma metodologia para análise de variáveis de entrada e saída. Como resultado apresenta-se um processo sequencial para tratamento de dados com potencial de ser aplicado em outros contextos. Neste processo são identificadas as variáveis com alto grau de correlação, as variáveis mais relevantes no conjunto de dados de entrada para o modelo preditivo e estimados resultados. A metodologia é aplicada em um conjunto de dados proveniente de uma central de operações, uma central de atendimento e de uma pesquisa de satisfação do cliente, caracterizado como complexo, com o algoritmo Stochastic Gradient Boosting, onde cálculo do erro percentual médio absoluto é utilizado como referência para seleção do modelo. A análise de componentes principais apresenta influência positiva na redução do erro e a redução dimensional pelas variáveis altamente correlacionadas tem pouca influência, pela característica do algoritmo. Identifica-se desvio da média no erro em determinadas variáveis e regiões, o que indica a influência de fatores externos ao conjunto e a limitação de dados históricos na tarefa de estimativa. O cálculo do coeficiente de correlação identifica variáveis de comportamento semelhante e permite comparação entre as regiões e, juntamente com a identificação de importância de variáveis, permite a associação das variáveis monitoradas com os índices de satisfação. A metodologia proposta apresenta potencial de influenciar as atividades de monitoramento, para um acompanhamento diferenciado das métricas relevantes para a pesquisa de satisfação do cliente, como auxiliar para ações direcionadas com a finalidade de aprimorar resultados, sendo extensível a outros conjuntos de dados.

Abstract

The knowledge search from a data set promotes a scientific base to support decisions and priories strategies in several corporate segments. The customer perception is a valuable information to institutional goals. However, this information is not enough to improve quality and internal processes. The relationships between customer perception and internal metrics provide pattern recognition, closer monitoring of relevant factors, allow trends and drive efforts to prevent drop in income. This study uses the Gradient Boosting algorithm in a dataset from three different data sources to identify the most important variables and predict results based on current data. This algorithm is recognized as one of the most promises algorithms of the lasts decades for classification, regression and ranking. The prediction model is build with simulations on scenarios that includes preprocessing by principal component analysis and high correlated variables extraction. The final model is part of a methodology to analyze the relationship between input and output variables. A sequential process of data analysis is presented to identify variables with a high degree of relationship, the most relevant variables in the input dataset and estimate results. A data set from a operations center, a service desk and a customer satisfaction survey is submitted to the methodology and the Stochastic Gradient Boosting algorithm, where the mean absolute percentage error is used as a reference for the model selection. Principal component analysis preprocessing has a positive influence on error reduction and dimensional reduction by high correlated variables has low influence, due to the algorithm features. In certain variables and regions, the error has deviation, which leads to an external influence and the limitations of the historical data. The correlation coefficient identifies variables with similar behavior, allows comparisons between regions and, with the variable importance, enables an association between input variables and satisfaction indexes. The proposed methodology has potential to improve monitoring activities of the relevant metrics for the customer satisfaction survey to improve the survey response as well and can be applied to other datasets.

Data da defesa: 21/02/2017

Banca Examinadora

Orientador (a): Ana Paula Oening (Lactec)
Membro da Banca: Débora Cíntia Marcilio (Lactec)
Membro da Banca: Lúcio de Medeiros (Lactec)
Membro da Banca: Germano Lambert Torres (PS SOLUÇÕES)

Palavra(s)-Chave: Ciência de dados. Satisfação de clientes. Modelos regressivos. Aprendizagem de máquina. Análise de Componente Principal. Gradient Boosting. Stochastic Gradient Boosting.

Keywords: Data Science. Customer satisfaction. Regressive Models. Machine Learning. Principal Component Analysis. Gradient Boosting. Stochastic Gradient Boosting.

Utilizamos cookies para oferecer melhor experiência, melhorar o desempenho, analisar como você interage em nosso site e personalizar conteúdo. Ao utilizar este site, você concorda com o uso de cookies.