Regressão linear: um dos tipos mais importantes de análise de dados

Ligia Galvão
6 min readJul 17, 2019

--

Provavelmente a regressão linear é a equação estatística mais usada no mundo dos negócios. Seja em uma análise da área de Pesquisa de Mercado ou em uma projeção de demanda da área de Vendas, a regressão linear está sempre presente. Talvez isso ocorra pela fácil compreensão ou pelo vasto campo de uso da equação. Mas ainda há muitas dúvidas no correto uso da regressão linear nas análises. Pequenos erros ou interpretação equivocada de alguns conceitos, podem se transformar em um grande problema. Sua empresa sabe aproveitar o máximo desta ferramenta para a tomada de decisão?

O que é regressão linear?

Para falar de regressão linear, precisamos primeiro conceituar esta equação. Em termos de estatística e econometria, a equação de regressão linear estima uma condicional de uma variável y, com os dados de uma variável x, ou seja, a equação indica as relações lineares, os pontos fortes dessa relação e quantifica este relacionamento.

Com a análise de regressão, se assume que uma variável dependente (y) é influenciada por uma variável independente (x). Consequentemente, as informações sobre a relação entre as variáveis é usada para prever e/ou descrever mudanças futuras. Ou seja, o que irá acontecer com y baseado no valor de x?

Para um correto uso da regressão linear, se faz importante definir corretamente qual será a variável dependente e qual será a independente. A variável dependente da sua análise é a medida que dependerá de uma outra variável, geralmente é o que você deseja descobrir ou predizer. Já na variável independente, a medida não depende de nenhuma outra variável, é o fator que se suspeita impactar a variável dependente. Como exemplo, se o objetivo da análise é entender se as vendas do remédio para gripe aumentam em dias mais frios, a variável independente será os dados de temperatura e a variável dependente será o número de vendas de medicamentos para a gripe.

Um outro ponto importante da regressão linear, é entender que ela funciona para dados contínuos, ou seja, valores quantitativos que representam medidas. Caso uma das variáveis seja dados qualitativos, deve-se transformá-los em variáveis numéricas antes de iniciar a análise. Caso o banco tenha o campo “Sexo” definido como Homem e Mulher, se faz necessário transformar os dados em 0 (para homem) e 1 (para mulher), por exemplo.

Além da visualização gráfica (que será detalhado mais à frente), o resultado do coeficiente de relação (R2) ajuda os analistas no entendimento do tamanho da relação das variáveis. O R2 indica em porcentagem o quanto o modelo consegue explicar os valores observados. Sendo assim, quanto maior o valor do coeficiente de relação, mais explicativo é o modelo e melhor ele se ajusta à amostra.

Este coeficiente mede o grau de dependência linear entre as duas variáveis x e y, onde r pode variar em: −1 ≤ R ≤ 1;

R = 1: relação linear perfeita e positiva entre x e y;

R = 0: inexistência de relação linear entre x e y;

R = −1: relação linear perfeita e negativa entre x e y;

R > 0: relação linear positiva entre x e y;

R < 0: relação linear negativa entre x e y

No contexto onde uma empresa deseja saber a relação entre o valor da cesta de compra de seu ecommerce versus a idade de seus clientes, utilizando a equação da regressão linear, o resultado do R2 retornou o valor de 0,37. Isso significa que cerca de 37% da variação do valor da cesta pode ser explicado pela idade dos consumidores. Não é exatamente uma previsão ou explicação perfeita, mas definitivamente é um resultado muito melhor que zero.

Representação Gráfica

É impossível falar de regressão linear sem falar da sua visualização gráfica através do gráfico de dispersão. Como todo chart deve ser, o gráfico de regressão linear demonstra de forma rápida e clara a relação entre as variáveis. Abaixo alguns exemplos e como eles devem ser interpretados.

As linhas apresentadas no gráfico explica a relação entre a variável independente e a variável dependente. Para as imagens que não apresentam correlação, pode-se observar que os dados de y não mudam em relação aos dados de x, neste caso, a variável independente não é impactada pela dependente.

Utilização prática no negócio

A regressão linear pode ser uma grande aliada para o acompanhamento de possíveis cenários para o negócio e suporte para a tomada de decisão. Apresentando o comportamento entre as variáveis, a organização consegue explicar um fenômeno que eles querem entender, predizer coisas sobre o futuro e decidir o que será feito.

Uma aplicação da regressão linear é entender se um conjunto de variáveis independentes (como: sexo e renda do cliente) está estatisticamente relacionado com a compra de um determinado produto para uma amostra de consumidores. A empresa realiza uma análise de regressão para ver o quão correlacionada é cada variável; isso geralmente requer alguma interação para encontrar a combinação certa de variáveis e o melhor modelo. Usando a equação de regressão, a empresa pode usar os coeficientes de relação — o grau em que cada variável afeta o comportamento de compra — para criar uma pontuação que preveja a probabilidade da compra.

Com a regressão linear, as empresas podem prever o salário de um funcionário com base na educação e nos anos de experiência; descrever as vendas de automóveis com relação à renda do consumidor, taxas de juros e descontos de preço; entender comportamento do preço do dólar em função da taxa de crescimento do Brasil; estimar a relação entre o prazo de entrega de um determinado produto no site com o número de desistência dos consumidores quando estes já estão na etapa do carrinho; ou entender qual variável tem maior impacto no aumento de preço dos produtos.

O campo de uso da regressão linear é amplo e provavelmente seja por este motivo que esta equação estatística deve ser usada com muita moderação. Não são todas as variáveis que cabem em uma regressão linear, como será abordado em seguida.

Onde as empresas erram ao usar a regressão linear

O primeiro erro ocorre em subestimar a regressão linear. Algumas empresas iniciam suas análises pela regressão linear simples por considerá-la fácil, mas os autores S. Christian Albright e Wayne L. Winston alertam os analistas no livro Business Analytics — Data Analysis and Decision Making: “Lembre-se que a regressão linear ‘simples’ não significa ‘fácil’; significa apenas que existe uma única variável explicativa.” Utilizar um modelo de regressão linear é tão complexo e trabalhoso como qualquer outra equação estatística, mesmo que você esteja trabalhando apenas com duas variáveis. É necessário ter conhecimento dos dados que se está trabalhando e do mercado de análise.

Um outro erro comum, é esquecer a máxima “correlação não é causalidade”. Em outras palavras, duas variáveis correlacionadas não implicam que uma variável é a causa da outra. Durante uma reunião, o time de vendas afirmou que o consumo dos brasileiros aumentavam durante o verão. Apesar de apresentarem dados que comprovem a relação entre o ticket médio gasto e o verão, era um erro afirmar que o calor faz os brasileiros gastarem mais. Uma explicação mais plausível é que o verão ocorre entre os meses de dezembro e março no Brasil, épocas onde há festividades, como o Natal, Ano Novo e Carnaval — além de ser o período de férias. A regressão linear pode até apresentar correlação entre altas temperaturas e os gastos dos brasileiros, mas não existe causalidade nesta análise.

Esses erros são comuns principalmente quando as empresas olham apenas para os dados e esquecem de olhar o mercado. É importante sempre analisar além dos números, observar o mundo real. No livro Statistic in a Nutshell, a estatística Sarah Boslaugh explica que “A vida real é muito mais variável do que o sistema fechado da matemática, e mesmo as relações mais fortes observadas no mundo real raramente são perfeitas no sentido matemático.” São mundos diferentes, e por este motivo o conhecimento do negócio (do mundo real) irá ajudar nas análises estatísticas.

Conclusão

É importante entender que não é possível prever o valor exato da variável de resposta relevante porque alguns fatores omitidos também podem influenciar a variável de resposta, como por exemplo novas leis e desastres naturais. Além disso, uma regressão linear sempre tem um risco de erro, já que na vida real uma variável independente nunca é uma perfeita preditora da variável dependente.

Por exemplo, ao tentar prever o salário de um funcionário, a capacidade natural do indivíduo é frequentemente omitida, pois é extremamente difícil de quantificar. Lembre-se que o segundo homem mais rico do mundo, com uma fortuna de 96,5 bilhões de dólares, é o Bill Gates. O fundador da Microsoft não concluiu a faculdade. Por fim, a regressão linear é uma ferramenta de suporte para sua análise, não o gênio da lâmpada.

Vamos Analisar!

--

--

Ligia Galvão
Ligia Galvão

Written by Ligia Galvão

Especialista em Inteligência de Mercado. Mestre emCustomer Intelligence & Analytics pela Pace University, Nova York.

No responses yet