0:00:00: Muito, muito boa noite para você que já está aqui para acompanhar a nossa live de quarta-feira às

0:00:10: 8 horas da noite. Dessa vez a segunda live sobre métricas e dessa vez métricas de regressão.

0:00:16: Sorria aí do outro lado porque eu vou tirar uma foto aqui da tela, então você tem que estar

0:00:21: sorrindo para que eu possa postar lá no Instagram para trazer mais dos nossos amiguinhos e amiguinhas

0:00:26: aqui para live. Sorria. Muito obrigado, fantástico. Deixa eu escrever aqui que estamos ao vivo agora

0:00:36: e já vá colocando aí no chat o seu boa noite e de onde você fala. Fala não, tecla né? QTC,

0:00:45: quem é mais antigo lembra do chat do UOL, vai lembrar do QTC. Diga também se o som está

0:00:51: bem, se também o vídeo está tudo certo, né? E deixa eu ver quem está aqui pelo chat. Boa noite,

0:01:01: Moisés, Julio Alcântara, deixou uma mensagem aí já faz um tempo. Alberto, Rodrigues, boa noite,

0:01:08: Alexandre, Richard, Carlos, Aristóteles, Marcos, Paulo, Rogério, André, Felipe, Wesley, Alberto

0:01:18: e Paulo, tá aqui, tá aqui perto. Alexandre, Alexandre que fez esses dias, eu postei lá o

0:01:24: recomendador do Google Scholar, não foi Alexandre? O aluno do curso fez lá o recomendador do Google

0:01:30: Scholar, tá lá no Instagram. Bruno, Marcos e Alexandre, a Rio Grande do Norte, não sabia,

0:01:38: não conhecia essa cidade, muito legal. É Aracaju, tem um monte de gente do Nordeste aqui que eu sei,

0:01:43: tem um pessoal de Fortaleza que geralmente tem um monte de gente Fortaleza. Na última live tinha

0:01:49: bastante gente Fortaleza, né? Como você já sabe, a gente espera cinco minutos e para todo mundo

0:01:58: chegar, a gente começa oficialmente às 20h05, enquanto isso, dê uma olhada lá, curso de

0:02:03: data science.com, curso fantástico, inclusive se você me segue nas redes sociais aí no Instagram,

0:02:09: no LinkedIn, você viu que eu fiz uma pesquisa para entender se é interessante ter um curso que não

0:02:18: envolva programação, não é o tipo de curso para formar um cientista de dados, mas é o tipo de

0:02:23: curso para entender de ciência de dados, para quem quer trabalhar com isso ou para quem tá pensando em

0:02:29: mudar de carreira, para quem quer trabalhar não necessariamente com cientista de dados e dependendo

0:02:35: de onde eu fiz a pesquisa, deu de 80 a 95% de pessoas que acham legal a ideia. Então provavelmente,

0:02:42: provavelmente não, o meu próximo curso vai ser sobre isso, eu tava fazendo o outline dele, vai ser

0:02:49: muito, muito legal, completamente baseado em casos de uso, casos reais, vai ser muito interessante

0:02:56: essa parte, mas que legal. Hoje nós vamos falar aqui sobre métricas de regressão e eu vejo o

0:03:05: Jason, de Quebec no Canadá, estamos internacionais, Natal, o Leandro, postos de caudas, é Rodrigo do

0:03:16: Rio de Janeiro, Gabriel vendo a live fazendo layout do app do curso, grande abraço, legal Gabriel,

0:03:22: faça um layout melhor que o meu, certamente né, o meu é uma porcaria o layout que eu pus lá,

0:03:27: aliás não tem layout né, legal, bastante gente por aqui já, deixa eu colocar aqui o endereço do

0:03:34: link do notebook, esse é o endereço do link deste notebook, dessa live, live número 30, aliás,

0:03:42: estas lives tem um dia para acabar, olha que coisa incrível, eu tava pensando, é insustentável fazer

0:03:50: isso o resto da vida né, então já pensou eu aqui com 80 anos não entendendo nada, falando, não lembrando

0:03:57: de nada e falando com você, acho que também nem tem conteúdo para tudo isso né, então decidi que

0:04:03: serão 52 lives, porque 52 lives? Dá um ano, em tese, pelo menos da última vez que eu ouvi né,

0:04:11: um ano tem 52 semanas, então seria a quantidade de lives de um ano fazendo live, essa é a live 30,

0:04:19: então depois dessa nós ainda teremos por aí mais 22 lives para a gente conversar e aproveitar,

0:04:24: isso quer dizer que eu vou desaparecer do mapa, não vou mais postar nada, de jeito nenhum, eu só vou

0:04:30: mudar o formato, talvez eu volte com os vídeos, não sei ainda direito como é que vai ser, mas eu

0:04:36: acho que é sempre legal a gente tá mudando e testando formatos novos né, calma Jonata, calma,

0:04:45: que não vai acabar tão rápido, são 22 semanas ainda, 23 contando essa de hoje né, então ainda tem

0:04:51: bastante tempo para a gente aprender bastante coisa aqui nas lives né, legal, Bruno Filho chegou,

0:04:58: Alberto pensa em fazer uma, opa selecionei errado, boa noite Bruno, mas era esse comentário que eu

0:05:04: queria, Mário pensa em fazer uma live sobre tratamento de Outlier, como achar no futuro? Posso

0:05:10: fazer sim, é um assunto interessante, eu preciso ver como é que eu farei uma live inteira sobre isso,

0:05:20: 52 numerologia, não William, 52 semanas no ano, então é para ter um ano de live né, então é isso aí,

0:05:29: 20.05 vamos começar aqui com o que realmente importa, a primeira coisa que eu, deixa eu tirar

0:05:36: o meu banner, você já viu aí o link, se alguém pedir o link vocês dizem aí para a pessoa, ó tá

0:05:43: ali, bit.ly, mario live 30, então vamos lá, na semana passada nós falamos sobre métricas de regressão,

0:05:50: eu expliquei que tinha as métricas com ponto de corte, sem ponto de corte, aliás, métricas de

0:05:57: classificação né, a de hoje que é de regressão, então o que acontece, mais uma vez eu quero deixar

0:06:03: tudo claro aqui que é o seguinte, isso aqui é o 80 a 20 da métrica, tá, o que que é 80 a 20, aquela

0:06:09: história do pareto, que 20% das causas são responsáveis por 80% dos efeitos, um negócio

0:06:15: desse aí, então por que que eu tô dizendo isso, porque o que eu tô te ensinando aqui é o que você

0:06:20: vai usar a maior parte do tempo, então tal qual como na classificação, na regressão também tem

0:06:27: uma porrada de métricas que você poderia usar, tá, mas essas aqui são as mais comuns, a que você vai

0:06:34: ver na maioria dos papers e você vai usar a maioria das vezes na prática, e aí eu pensei, como é que

0:06:42: a gente pode pensar sobre métrica, né, como é que eu explico métrica de uma forma que seja mais

0:06:48: intuitiva do que necessariamente falar, isso aqui é o que você usa, é uma função matemática que

0:06:54: você usa para avaliar modelos de machine learning, previsão de modelos de machine learning, aí eu

0:07:00: pensei, pensei, os dois neurônios que eu tenho na cabeça se juntaram e acharam um jeito de entender

0:07:07: métricas, o que acontece? Eu pensei, métricas são meio que uma bússola, tá, e aí você fala bússola

0:07:14: Mario, que coisa de velho, eu não sei o que é bússola, então vamos falar mais moderno, um GPS, pensei

0:07:20: que eu tô querendo ir a algum lugar, eu tô lá dirigindo, seguindo lá o GPS, no caso eu gosto de

0:07:27: usar o Waze, porque, ainda que quando tem radar, mas eu não falei isso, né, eu gosto de usar o Waze,

0:07:32: porque é o Waze, então o que acontece? Você tem o GPS e ele te dá duas medidas, ele te dá a

0:07:41: distância para chegar no lugar e ele te dá o tempo para chegar no lugar, em tese eu tô querendo

0:07:48: utilizar a distância entre eu e o lugar, certo? Eu vou saber que eu cheguei no lugar quando a minha

0:07:52: distância entre eu e o meu destino for zero, mas é aquele negócio, eu sempre te falo, não use uma

0:08:00: métrica só, porque uma métrica só não vai te mostrar toda a informação de como o teu modelo tá

0:08:06: te levando aonde você quer chegar, então por exemplo, aqui em São Paulo, imagino que em várias

0:08:12: cidades, aqui a gente tem a marginal, né, que são duas praticamente rodovias dentro da nossa cidade,

0:08:17: e geralmente quando você vai ali para a região da zona sul, quando você vai para o centro da cidade,

0:08:22: você tem a opção de ir por dentro, que a gente fala que é ir pelas ruas, pelos bairros, ou você

0:08:28: tem a opção de dar uma volta pela marginal e depois entrar perto de onde você quer chegar no final,

0:08:34: só que acontece uma coisa muito comum, geralmente por dentro, você indo pelos bairros, você chega

0:08:42: com a distância menor, mas o tempo é maior, porque você pega mais trânsito, você pega mais

0:08:47: condicionamento, agora quando você vai pela marginal, geralmente você dá uma volta maior,

0:08:52: você tem uma distância maior, mas o tempo pode ser menor, porque tem menos trânsito, são vias mais

0:08:58: rápidas, é praticamente, sei lá, que eu disse, maioria das cidades, você pega a rodovia por fora

0:09:03: da cidade, por exemplo, em Campinas, você pega a rodovia por fora da cidade e chega no bairro onde

0:09:08: você quer, então por isso que é importante ter duas métricas, eu normalmente quero minimizar o

0:09:14: tempo, só que eu não quero chegar mais rápido, tendo que dar uma volta de 100 km a mais, entendeu?

0:09:20: Então por isso, esse foi o exemplo que eu pensei de a gente tentar entender como uma métrica só é

0:09:28: muito pouco de informação, não é que você tem que também ter 10 métricas, mas ter mais de uma

0:09:33: métrica, te permite ver outro aspecto daquilo que você está otimizando, então eu sabendo o tempo e

0:09:40: a distância, eu consigo tomar uma decisão melhor de qual caminho que vai me levar até o destino,

0:09:45: apesar de no fim das contas eu estar minimizando a distância, então essa é a ideia, a ideia pensa em

0:09:53: métricas como isso, você sempre tem a métrica primária, mas são formas de você enxergar como

0:10:00: o modelo está agindo em diferentes dimensões do problema que você tem que resolver, tá legal,

0:10:05: então vamos começar oficialmente aqui a ver isso no código, né? Como da última vez eu vou gerar

0:10:13: aqui algumas arrays do NumPy para a gente poder ter como se fosse as nossas previsões, então eu vou

0:10:20: rodar aqui a random uniform, vou criar um array com 10, com 10 elementos, então size igual a 10,

0:10:28: o Y vai ser também um array de números aleatórios, é muito mais simples do que da última vez,

0:10:37: porque aqui a gente não tem a questão do ponto de corte e tudo mais, mas aqui eu vou colocar o

0:10:42: seguinte, eu vou criar uma segunda array de Y, então aqui a gente tem o que seria a nossa previsão,

0:10:48: faz de conta que a nossa previsão aqui nós teremos o Y que é o valor real, então vamos dizer que o P

0:10:55: é quantos centavos custa uma bala, quantos centavos custa um guarda-chuva em dia de chuva,

0:11:02: pronto, tá? Só para a gente inventar alguma coisa, e aqui eu vou criar o Youtlier, que vai ser uma

0:11:11: cópia do Y, só que eu vou trocar o primeiro elemento por um elemento gigantesco, gigantesco

0:11:20: diante do que a gente está vendo, então por exemplo, se eu te mostrar essas arrays, a array P vai de 0 a 1,

0:11:26: então são números aleatórios, 0 a 1 de uma distribuição uniforme, array Y, mesma coisa, vai de 0 a 1

0:11:33: números aleatórios, então quer dizer, se na array Youtlier eu coloco um elemento que é 100, então ele

0:11:42: realmente está muito fora da distribuição que a gente está tentando modelar, né? Se os nossos

0:11:50: números normalmente vão de 0 a 1, o 100 é um Outlier, e a gente vai ver não só quais são as métricas

0:11:56: de regressão, mas como essas métricas se comportam em condições normais e em condições onde a gente

0:12:03: tem um Outlier, tá? Deixa eu ver se tem alguma pergunta aqui, as perguntas que não forem de métricas,

0:12:10: depois vocês repitam no fim da live que eu respondo se eu souber, logicamente, né? Vamos lá,

0:12:18: então, por enquanto parece que está tudo certo, a primeira métrica que a gente vai examinar é, deixa

0:12:27: eu ver se eu consigo copiar o nome inteiro dela aqui da minha colinha, o MSE, ou também conhecido

0:12:34: como erro médio quadrado, e aí eu coloquei aqui entre parênteses root, né? A raiz quadrada do

0:12:40: erro médio quadrado, aliás, aqui faltou colocar entre parênteses, porque geralmente, dentro do

0:12:45: erro, a gente está otimizando o erro médio quadrado sem a raiz, tá? Mas para a gente trazer de volta

0:12:52: para as unidades que sejam mais interpretáveis, a gente tira a raiz quadrada, que imagina só,

0:12:58: se eu medir o erro médio quadrado da previsão, por exemplo, do preço de guarda-chuva, o erro que eu

0:13:04: vou estar medindo, a unidade dele vai ser em reais ao quadrado, mas eu não sei como é que funcionam

0:13:10: o preço ao quadrado, eu sei como é que funcionam reais, ou dólares, ou seja o que for. Então,

0:13:16: quando a gente tira a raiz desse erro, a gente transforma de volta para a unidade original que

0:13:23: a gente estava trabalhando, tá? Então, primeira coisa que a gente tem que saber é que ele fica na

0:13:28: mesma unidade, né? Quando a gente tira a raiz quadrada, ele volta para a mesma unidade de medida

0:13:36: original. E qual é a diferença dele em relação aos outros? Ele é muito comum, primeiro, porque

0:13:44: parece que historicamente, matematicamente, ele é mais fácil de lidar quando você está ali fazendo

0:13:50: teorema e tudo mais. Mas o que a gente precisa entender na prática é que ele dá uma maior

0:13:55: penalidade para erros grandes. Então, um erro, por exemplo, se a diferença entre o preço do

0:14:01: erro a sua for dois reais, o erro, a previsão e o preço real, a penalidade que a gente vai aplicar

0:14:08: no modelo é o quadrado de dois, então vai ser quatro, né? Então, quer dizer, ele eleva o quadrado

0:14:13: os erros, ele vai transformar os erros, quanto maior for o erro, muito maior vai ser a penalidade,

0:14:20: né? Vai ser o quadrado do erro a penalidade. Então, ele acaba sendo mais impactado por outlier, né?

0:14:27: Então, ele resta mais atenção nesses valores que estão, que tem um erro maior, tá? Coisa que,

0:14:33: por exemplo, no próximo erro, erro médio absoluto, não vai ter, ele vai ter um foco também, ele foca

0:14:39: também, lógico, ele está medindo erro em tudo, mas esse aqui, se o erro, por exemplo, naquele negócio,

0:14:45: naquele número 100 lá, se eu tivesse previsto 10, eu teria 90 de erro, então se a minha previsão é 10

0:14:52: e o valor real é 100, eu tenho lá o 90 de erro. Se eu tirar só o valor absoluto, vai ser 90. Agora,

0:14:59: o erro quadrado é 90 vezes 90, sei lá, 1800, alguma coisa assim, então a punição é muito maior,

0:15:07: né? Mas esse é o mais comum, geralmente funciona muito bem para o que a gente quer, para a maioria

0:15:13: das coisas que a gente quer fazer, tá? Uma coisa interessante é você saber que o minimizador dele,

0:15:19: vamos dizer que você quer escolher entre a média e a mediana como tua previsão, tá? Então, você pega

0:15:25: a média aí de dados históricos e usa como previsão para o futuro. O que vai minimizar o erro

0:15:32: médio quadrado é justamente a média, tá? Então, se eu usar a previsão igual à média, vai estar ali

0:15:38: meio que na mínima dentre essas previsões, dentre um número que eu possa usar para minimizar esse erro.

0:15:47: Então, se eu tiver um número, eu prevejo a média, eu vou ter minimizado esse erro, tá? Agora, a gente vai

0:15:54: ver que tem outros que são minimizados pela mediana. Então, vamos lá, acho que ficou meio confuso só isso,

0:16:00: ficou confuso, vocês me falam, eu tento explicar de novo. Então, como é que a gente faz para usar?

0:16:05: ChromeSKLearn, metrics, import, min, squared, error, completa para mim, isso, muito obrigado.

0:16:13: E aí, é muito, muito simples. Então, a gente começa aqui com MSE, vou colocar underline só para

0:16:20: ficar bonitinho ali, aliás, sem underline, não precisa, é min, squared, error,

0:16:27: dá o meu filho completo aí para mim, y, primeiro, p, em segundo, e eu vou calcular também para o MSE,

0:16:37: min, squared, error, min, squared, agora ele não está querendo completar para mim. Y, só que é y,

0:16:48: outlier, né? E o p, por que que eu coloquei o outlier no y e não na previsão? Porque geralmente,

0:16:54: o modelo, ele vai prever tudo ali juntinho, ele dificilmente, principalmente o modelo de hardware,

0:17:01: ele não vai jogar um outlier como previsão. Normalmente, você vê muito mais outlier no y

0:17:06: que na tua previsão. E aí, eu criei aqui uma funçãozinha para calcular o RMSE para a gente, tá?

0:17:14: E sem outlier, ele tem um erro, raiz quadrada do erro, metro, quadrado, ponto, 29, 86, com outlier,

0:17:24: 31. Então, veja só, eu mudei um elemento para 100, tá? E olha como o erro já foi lá longe. Teve uma

0:17:33: competição no Kaggle, eu acho que foi a do cartão ELO, tinham não sei quantos mil exemplos, mas acho

0:17:40: que 23 deles, alguma coisa assim, eram outliers. Então, tudo estava ali entre menos um e um, só que

0:17:47: esses 23 exemplos tinham valor 33. Então, o pessoal começou a focar só em prever esses exemplos que

0:17:54: eram outliers, porque eram basicamente responsáveis pela maior parte do erro que a gente estava tendo

0:18:00: naquela competição, tá? Então, é muito importante você ver se o teu erro não está sendo super afetado

0:18:08: somente pelos outliers que você tem. E se alguém quiser saber como é que se calcula esse erro, né?

0:18:14: P menos y ao quadrado, e aí você faz a média disso aqui e você chega nesse erro, tá? Eu não vou entrar

0:18:23: aqui nesses detalhes do cálculo deles, porque é muito, muito simples, você encontra em qualquer lugar.

0:18:30: Só que o que acontece, deixa eu ver se não tem nenhuma dúvida aqui no chat sobre isso. Deixa eu ver aqui.

0:18:40: Ah não, sobre colocar as métricas, Rafael, então… É que essas fórmulas são muito fáceis de achar

0:18:50: na internet, tá? Então, eu vou focar mais aqui na questão de dar a intuição de quando usar isso e

0:18:59: dar o exemplo aqui do código, tá? Mas é facinho, tem os links, só abrir lá o Wikipedia que tem essas…

0:19:06: Tem as fórmulas lá, direitinho, tudo bonitinho, com latex e tudo mais. Legal, um outro erro que meio

0:19:15: que vem junto com esse é o erro… E eu perdi aqui a tela onde tem a live. Deixa eu pegar só aqui, puxar

0:19:25: a tela, eu já continuo explicando, beleza. O outro erro é o erro médio, é a raiz quadrada do erro médio

0:19:33: logarítmico quadrado. Você já deve ter visto eu mexendo com esse erro quando eu falo de série temporal,

0:19:39: de decisão de vendas. Eu gosto desse erro, por quê? Porque ele acaba sendo uma aproximação do erro

0:19:47: percentual, em termos da ideia dele, é a mesma ideia de um erro percentual. Então, o que acontece?

0:19:53: A diferença é que ele é contínuo, então ele é mais fácil de minimizar. Então, geralmente,

0:19:59: quando alguém prefere, em vez de usar o erro médio percentual absoluto, que a gente vai ver aqui também,

0:20:07: geralmente, o pessoal prefere esse dentro dos modelos, porque acaba sendo mais fácil do modelo

0:20:14: minimizar. Matematicamente, ele é mais fácil de minimizar. Mas algumas coisas que a gente precisa

0:20:19: saber desse erro. Então, ele não pode ser negativo, ou a previsão, o erro ali dele não pode ser…

0:20:28: A previsão não pode ser negativa, porque a gente vai tirar o log, né? E eu vou te mostrar daqui a pouco

0:20:33: a diferença disso. Ele aproxima o erro percentual e o que a gente tem que entender é o seguinte,

0:20:39: a diferença dele para o erro médio quadrado é o seguinte, o MSE, né? Que é o que a gente viu

0:20:46: aqui em cima, ele se importa mais com a diferença, e aqui eu vou usar o valor absoluta, não no sentido

0:20:55: matemático da coisa, não no sentido do operador absoluto, mas assim, ele se importa com a diferença

0:21:00: ali sem nenhuma transformação, né? Claro, ele faz ao quadrado, mas ele faz o quadrado de uma

0:21:07: diferença simples, né? A menos B. Enquanto que o MSLE, que é esse que a gente tá vendo agora,

0:21:16: ele se importa com a diferença relativa. Então, o que a gente vai fazer? A gente vai subtrair o log

0:21:25: dos erros, tá? E log menos log é a mesma coisa que você… Olha, agora me fugiu isso aí, mas se eu não

0:21:35: me engano, me corrigem no chat se eu tiver errado, mas log de alguma coisa menos log de outra coisa,

0:21:40: é mais ou menos equivalente a você fazer o log de A sobre B. Log A menos log B é igual a log de A

0:21:49: sobre B. Deixa eu até ver isso aqui, porque isso é muito importante para eu falar errado para você,

0:21:55: e eu completamente esqueci nesse momento. Vamos ver, onde é que tem aqui? Aqui, ó. Então, o que eu

0:22:06: estou querendo dizer é essa imagem aqui, ó. Vou até dar um zoom maior aqui, ó. Log de M sobre N é

0:22:16: igual a log de M menos o log de N, tá? Essa é a ideia. Então, quer dizer, a gente tá querendo fazer,

0:22:22: aproximar um erro relativo entre M e N, um erro de M relativo a N, tá? É legal. Deixa eu ver aqui. Então,

0:22:32: para te dar o exemplo, eu vou escrever aqui o seguinte. Vamos puxar essa métrica aqui também

0:22:40: para o nosso querido scikit-learn, miniscuadded log error dessa vez. Eu não deixei o comentário

0:22:49: aí na frente, não, né? Beleza. Então, o que acontece? Porque é diferente. Se eu fizer, se eu tiver

0:22:57: uma previsão igual a 10, e se eu colocar aqui o P vai dar errado. Então, P linha igual a 10, Y linha igual a 11.

0:23:04: Então, o meu erro no MSE, ele vai ser P underline e menos Y underline. Ele vai fazer lá toda a coisa

0:23:15: dele de quadrado e tudo mais. Mas, se eu tivesse aqui 110 e 111, logicamente, se eu fizer o P

0:23:24: menos Y, o P linha, P underline menos Y underline, vai dar menos um do mesmo jeito. Quando eu estou

0:23:31: utilizando log, esse erro logaritmo, ele vai aplicar o log antes de calcular essa diferença. Então,

0:23:39: o que acontece? Quando eu fizer o log de 10 menos o log de 11, ele vai dar menos 0.09 aqui, né? Se eu

0:23:51: fizer o log de 110, então vamos lá, tinha que ter menos 0.09. Se eu fizer o log de 110 e 111, ele dá

0:23:58: menos 0.009. Então, quer dizer, é a diferença relativa, 10 para 11 é uma diferença relativa muito

0:24:05: maior do que de 110 para 111. Então, por isso que geralmente isso aqui é usado em previsão de vendas,

0:24:11: quando são produtos que saem, sei lá, vende quatro produtos por dia, cinco produtos por dia. Porque é

0:24:17: muito pior você prever errado, sei lá, você prever que vai vender seis e vender quatro, ou prever que

0:24:25: vai vender quatro e vender seis, né? Porque você faltou dois ali, do que você prever que vai vender,

0:24:30: sei lá, 120 e vender o 110, 130, né? Então, é só essa diferença, né? Muito mais na questão relativa

0:24:42: da coisa. É legal, vou colar aqui uns prints só para deixar isso marcado para você poder lembrar.

0:24:50: E um detalhe, geralmente essa métrica é calculada usando uma função do NANPAI chamada log 1P,

0:24:59: que nada mais é do que o log de x mais 1, tá? Então, o valor que for mais 1 é porque é mais

0:25:10: estável numericamente, por causa da questão do zero, né? Se você tiver o zero, o log de zero é,

0:25:16: não lembro se é indefinido ou menos infinito, um negócio desses assim, e logicamente na prática

0:25:21: não ajuda muito. Então, geralmente é usada essa função log 1P, que é o log do que quer que seja

0:25:27: mais 1, para lidar com essa questão do zero. É legal. Então, aqui eu vou colocar a mesma coisa,

0:25:36: vou até copiar para a gente conseguir, para não ficar muito repetitivo. Então, o que eu fiz?

0:25:41: Eu fiz MSLE igual mini squared log error e o MSLE outlier, né? Novamente, estou tirando a raiz

0:25:49: quadrada aqui, depois que eu calculo esse erro, e quando a gente vê, a gente tem aqui 100 outlier

0:25:56: ponto 18, 17 com outlier 1 ponto 34. Então, quer dizer, lógico, ele não é comparável ao de cima,

0:26:05: mas você vê que a diferença é grande por causa do outlier, né? Mas ela não estoura, vamos dizer,

0:26:15: igual ela estourou aqui para cima. Aqui o erro está, putz, o quê? 30, 90 vezes maior, não sei,

0:26:23: sei lá, 100, não, 29, 2, 29, 100 vezes, está mais de 100 vezes maior o erro quadrado, o erro

0:26:32: de cima, está sei lá, 6 vezes maior, mais ou menos. Então, você vê como a métrica muda a forma como

0:26:40: você vê o outlier. Se o cálculo interno do Scikit-Learn fosse feito com a função log e não

0:26:50: com a log 1p, eu te falaria que isso aqui é aproximadamente o erro médio percentual, e eu posso

0:26:57: provar isso, provar no sentido assim muito aberto da palavra, eu acho que isso é uma coisa muito

0:27:03: importante de eu te mostrar porque vai te dar um esclarecimento muito grande do porquê que se usa

0:27:09: esse erro logarítmico para aproximar o erro percentual. Então, se eu importar aqui o Pipeplot,

0:27:20: eu vou conseguir fazer um gráfico que é o seguinte, imagine que eu tenha a minha lista de

0:27:26: erros lá, então eu vou colocar aqui erros igual np.linkspace, eu vou colocar que eu tenho erros

0:27:34: previsões, vai de 0.5 a 1, colocar aqui mil previsões, essa função aqui simplesmente cria

0:27:40: mil pontos de 0.5 até 1, tá? E o que eu vou fazer? Vou calcular o meu erro quadrado logarítmico,

0:27:49: então vou colocar aqui o SLE, erro quadrado logarítmico, deixa eu ver aqui, é raiz quadrada,

0:27:56: eu vou fingir que a minha previsão é 1, tá? Eu tô fazendo a previsão 1, então np log 1, que no

0:28:05: caso vai ser 0, e aqui eu vou colocar os meus, aliás, me desculpe, não é erros, é P, é y,

0:28:15: e vai ter que ser y’, também. Então, vamos lá, y’, é… Aqui SLE, beleza. E eu vou calcular também

0:28:29: para te mostrar o erro absoluto. Então, vamos lá. O absoluto, normalmente como é que a gente calcula

0:28:36: o erro médio absoluto? Talvez eu devia ter deixado para fazer essa demonstração depois de falar do

0:28:42: erro médio absoluto, mas vamos tentar. Então, o erro médio absoluto normalmente você tá fazendo

0:28:49: o seguinte, você tá fazendo a diferença entre a tua previsão e o erro e o valor real dividido pelo

0:28:58: valor real, tá? Novamente isso vai ficar mais claro, eu acabei errando, aqui eu devia ter deixado isso

0:29:02: para depois, mas vamos lá. O que eu quero te mostrar aqui é o seguinte, como eles são equivalentes,

0:29:09: tá? Porque tem muita gente que não entende porque usar esse erro quadrado quando você pode usar o

0:29:17: erro médio absoluto. Se eu fizer aqui, então, um gráfico, vou até copiar daqui, fica mais fácil.

0:29:24: Se eu fizer aqui um gráfico de 1 menos a previsão, ou seja, desse valor de erro que a gente tá calculando

0:29:31: 1 menos o PTS no X e o erro no Y, a gente vai ter esse gráfico aqui, se eu, na verdade, eu inventei

0:29:42: esse PTS porque era o nome que tava lá no outro. Então, vamos lá. Espera aí que meu exemplo deu errado,

0:29:50: porque eu esqueci de colocar o quadrado aqui no erro logarítmico. Então, vamos lá.

0:30:00: Então, vamos tentar entender isso aqui. Deixa até colocar o tema clarinho para a gente poder ver os

0:30:12: eixos. Então, o que eu quero te mostrar aqui? Toda essa bagunça é só para te mostrar que o erro

0:30:19: logarítmico, ele está em laranja. Só ver uma coisa aqui para ter certeza que ele não inverteu as cores.

0:30:31: É isso aí. Então, o erro logarítmico tá em laranja, o erro absoluto, erro médio, que em vários

0:30:39: exemplos, o erro médio e percentual absoluto, tá em azul. Então, o que eu quero te mostrar é essa região do

0:30:44: erro aqui, mais ou menos até 0.2, até a gente pode dizer 0.3. Você pode ver que eles acompanham,

0:30:51: eles estão basicamente juntos, eles começam a desviar aqui por volta do 0.2. Então, quer dizer,

0:30:58: mais ou menos até 20% de erro percentual, eu diria até que na prática até 30% do erro percentual,

0:31:06: o valor que você vê no erro logarítmico lá, o erro quadralogarítmico, é praticamente o mesmo

0:31:14: do erro médio percentual. Então, como é que eu até vi uma pergunta aí, como é que a gente interpreta

0:31:20: isso no caso dos negócios? O erro médio logarítmico nessas diferenças menores, ele é basicamente a mesma

0:31:28: coisa, é muito próximo do erro percentual. Então, essa seria a explicação de quando que a gente usa

0:31:36: esse erro, de como que a gente, por que esse erro se tornou popular, tá? Daqui a pouco eu vou aí ver

0:31:44: as perguntas, deixa eu voltar aqui para o tema dark. E, aliás, eu vou ver as perguntas agora, porque

0:31:49: essa parte pode ser um pouquinho confusa, tá? O som da moto não pode faltar, isso é verdade, é legal.

0:31:59: Bruno Cateca, como interpretando esses erros nos negócios, como conseguindo reportar pra área de negócio?

0:32:04: Eu vou ver, se até agora esse erro, Bruno, é justamente, praticamente a mesma ideia do erro

0:32:10: percentual, tá? A diferença que a gente vai ter aqui é no MSE, esse aqui é um erro mais difícil de

0:32:18: você interpretar, por isso que eu sempre recomendo ter uma baseline, tá? Porque, de certa forma, fica

0:32:26: mais fácil você dizer, ó, nossa solução hoje, de acordo com essa métrica, atinge esse valor. Então,

0:32:33: porque nessa métrica a gente tá melhorando em x por 7. Uma coisa que não, assim, matematicamente,

0:32:43: eu nunca tive certeza se tá certo ou não, provavelmente não tá certa, é a ideia de que,

0:32:48: pra cima e pra baixo, você teria ali um intervalo de confiança das suas previsões, tá? Com esse

0:32:56: erro médio quadrado, mas provavelmente, matematicamente, isso aí não é válido, tá?

0:33:00: Eu diria que existem esses outros erros que são mais fáceis de você explicar o que tá acontecendo

0:33:08: com o modelo, que a gente vai começar a ver agora. Então, vamos lá, deixa eu pegar aqui, o nosso

0:33:15: próximo erro vai ser o MAE, tá? Que é o erro médio absoluto. Eu diria que depois do erro médio

0:33:24: quadrado, esse aqui deve ser o mais popular, tá? Porque o minimizador dele é a mediana, então,

0:33:33: lembra que eu falei, minimizador é a mediana. Então, quer dizer, se você usar um ponto só pra prever

0:33:42: um valor, pra prever todos os teus y lá, e tiver calculando erro através do erro médio absoluto,

0:33:50: a mediana vai minimizar esse erro pra você, tá? O que acontece? Este erro, ele é menos preocupado

0:34:02: com os outliers, ele dá menos penalidade pros outliers, é muito, muito direto você ver porque

0:34:10: que isso acontece, porque em vez dele elevar o quadrado do teu erro, ele vai só tirar ali o valor

0:34:15: absoluto, né? Ele só vai remover o sinal do teu erro, então ele não vai penalizar a mais só porque

0:34:22: o teu erro é grande. E normalmente eu vejo muito esse erro em questões, em casos que tem muito ruído

0:34:31: nos dados, então, mercado financeiro geralmente você vê esse tipo de erro sendo computado,

0:34:38: por quê? Porque você prever, diferente de zero, já é um negócio extremamente difícil, e muitas

0:34:45: vezes o outlier que você tá vendo não é um padrão que você vai conseguir aproveitar em vários momentos,

0:34:51: é um padrão que aconteceu uma vez e talvez daqui a 10 anos, sei lá, aconteça de novo, um dia que,

0:34:57: sei lá, a vale cai a 20%, né? Então, geralmente quando você tá mais preocupado com ali a parte

0:35:05: mais central dos dados, os outliers não importam tanto pra você, esse erro acaba sendo mais adequado.

0:35:12: Então, vou colocar tudo menos preocupado com outliers, mas como eu te falei, ideal é medir os dois, tá?

0:35:19: Tanto o quadrado pra você ver como é que tá indo nos outliers e o erro médio absoluto pra você ver

0:35:25: como que tá mais na parte ali central dos teus dados. E nem sempre reduzir um desses vai reduzir o outro,

0:35:34: tá? Tem hora que você reduz o erro médio quadrado, aumenta o erro absoluto e vice-versa, então reduzir

0:35:41: quer dizer que você vai estar reduzindo o outro. Geralmente é mais difícil você encontrar esse

0:35:46: tipo de erro minimizado nos modelos porque ele, matematicamente, ele precisa de um negócio chamado

0:35:53: subgradiente quando tá ali perto do zero, é um negócio mais complicadinho pro minimizador ali

0:36:02: conseguir achar solução, mas existe, tá? Hoje, aliás, hoje existe tudo, hoje tem modelos muito

0:36:08: experimentados. Vamos lá, minha absolute error, novamente vou copiar aqui pra gente não ficar só

0:36:15: repetindo o mesmo código, criei aqui o meu my e o meu my outlier e vamos ver como é que ele funciona

0:36:24: com os nossos erros. E aí você vê o seguinte, sem outlier nós temos aqui um erro médio absoluto

0:36:31: de ponto 23 com outlier 10, então quer dizer, ele cresceu pra caramba, mas ele não cresceu igual

0:36:40: o erro quadrado, esse é falar Mário, mas o erro logarítmico cresceu menos, né? E realmente,

0:36:48: porque ele tá mais preocupado com a diferença relativa, mas o que eu quero que você lembre

0:36:52: disso aqui é o seguinte, que o efeito dos outliers nesse erro é menor do que o efeito

0:36:59: dos outliers no erro médio quadrado, tá? Mas tem um, quando a gente tá falando de outlier tem um

0:37:06: erro que é mais legal ainda e que nem todo mundo conhece, que é o erro mediano absoluto, essa

0:37:16: tradução fui eu que fiz, eu não sei se tem outro nome pra esse erro que seja melhor, tá? Mas que

0:37:21: que é o erro mediano absoluto? Em vez da gente pegar e calcular a média dos erros e tirar o

0:37:28: valor absoluto, a gente pega a mediana dos erros e tira o valor absoluto, tá? E isso pode ser, eu

0:37:36: procurei, não achei algum lugar que tenha isso, mas certamente existe essa definição um tipo de

0:37:42: erro de quantil, tá? Erro de quantil, como você sabe eu tenho uma certa dificuldade com quantil,

0:37:50: eu não entendo quantil essas coisas, às vezes eu confundo. Então aqui a gente tá vendo o erro no

0:37:58: percentil 50, né? A mediana é o percentil 50. E por que que a gente não poderia medir esse erro no

0:38:07: percentil 75, percentil 95? Então, de certa forma dá pra você pensar não só nele como um erro

0:38:14: mediano absoluto, mas um erro de em percentil diferente, né? Então eu vou colocar aqui até um

0:38:21: erro de percentil, tá? Erro no percentil acho que fica mais claro, se você tiver uma sugestão pra

0:38:28: deixar mais claro deixe aí no chat, por favor, tá? E aí você fala, mas Mário, quando que isso é usado

0:38:34: na vida real? E quem usa isso é, pelo menos foi o maior site de imóveis lá dos Estados Unidos, que

0:38:43: é o Zillow, tá? Vou até abrir aqui o link do Zillow. É como eles medem, como eles mediam, né?

0:38:55: Pelo menos antigamente, a estimativa do modelo deles pra tentar prever o valor das casas que

0:39:01: eram postadas no site. Então eles, deixa eu ver aqui onde é que tá escrito, aqui ó, 8.8% lá em 2012

0:39:09: 8.8% o median absolute percent error, tá? Que que isso significa? Isso significa que metade dos

0:39:20: erros do sistema deles era menor do que 8,8%. Então deixa eu colocar aqui o link e escrever aqui

0:39:28: que metade dos erros do modelo é menor que o valor deste erro, né? Faz sentido. Por isso que eu falei,

0:39:39: você pode expandir para outros outros percentes, pra você ver, tá? 95% dos meus erros estão abaixo

0:39:46: de tanto, né? Eu particularmente acho muito fácil de interpretar esse erro e eu gosto muito de usar

0:39:53: na prática, justamente porque, putz, é muito legal você pensar, bom, metade dos erros estão

0:40:00: abaixo disso aqui, né? Então, fromScaler.metrics.import, median absolute error e eu usei, eu descobri esse

0:40:11: erro e descobri que a Zillow usava porque no projeto que eu fiz de precificação de arte, eles queriam

0:40:16: usar esse erro também. Então, quer dizer, queriam saber qual era ali a mediana do erro do erro

0:40:22: percentual ali que a gente podia achar. Isso aqui não é necessariamente erro percentual, tá? Mas no

0:40:30: caso da Zillow lá, eles estavam calculando em porcentagem. Como é que a gente faz para

0:40:36: calcular isso aqui? Mais uma vez, temos aqui mediamabsoluteerror e aí você vai ver a mágica

0:40:43: do outlier, porque logicamente, se a gente está pegando a mediana, o outlier não afeta esse erro.

0:40:50: Não é incrível isso aqui? Então, sem outlier e com outlier, ele fica a mesma coisa, porque a

0:40:57: previsão, o erro da previsão média está ali, bem no meio. Então, basicamente não afeta. Ele

0:41:05: praticamente ignora a existência do teu outlier. E aqui, se a gente mudar para 95 e tal, ainda assim

0:41:12: não vai pegar o outlier. Então, esse é um erro pouco usado que eu particularmente tenho um certo

0:41:17: problema pela facilidade de entender o que ele está calculando. Próximo erro vai ser o erro

0:41:25: médio percentual absoluto, mas deixa eu ver antes se tem alguma pergunta aqui. Eu vou responder algumas

0:41:29: perguntas e já vou de volta lá para explicar esse erro que é super usado para previsão de vendas,

0:41:36: super fácil de interpretar também. Infelizmente, às vezes os erros mais fáceis de interpretar são

0:41:43: mais difíceis de colocar dentro do modelo para ele minimizar. A gente precisa fazer ali umas

0:41:48: mágicas para conseguir trazer para uma forma que a gente consiga interpretar. Deixa eu ver…

0:41:57: Antes de criticizar, Alberto, eu sempre uso o My ao invés do MSE por estar na mesma unidade da

0:42:04: variável. Você já usou MSE ao invés do MSE? Acho que o My ao invés do MSE é o que eu falei, eu gosto

0:42:10: mais de um, então geralmente eu meço os dois. Para o MSE ficar na mesma unidade, tira a raiz

0:42:18: quadrada dele, que ele fica na mesma unidade original. Tem como minimizar o My e não minimizar o MSE?

0:42:24: Tem. Só você fazer uns testes com qualquer modelo que você vai ver que tem casos que sobe o MSE e o

0:42:33: MSE baixa. Então nem sempre você minimizando um, você vai estar minimizando o outro. Marcos, não ficou

0:42:41: claro para mim porque sabendo que o RMSLE é aproximadamente o erro médio percentual, nós vamos

0:42:46: assistir o último no lugar do RMSLE. Porque o erro médio percentual para o modelo otimizar ele é

0:42:53: muito mais difícil, porque ele não tem ali, não é tão fácil você tirar as derivadas e tudo mais

0:42:58: para conseguir fazer o modelo otimizar. Por isso que geralmente a gente usa o RMSLE, porque ele tem

0:43:04: tanto a primeira quanto a segunda derivada você tira ali numa boa e consegue passar para o modelo.

0:43:10: William, não seria quartil? Provavelmente é quartil, o nome certo ali, eu que estou viajando.

0:43:18: Legal, depois eu respondo essa Guilherme, média E seria a mesma coisa que median absolute deviation,

0:43:28: não saiba não. Aliás median, median provavelmente é, não vou saber te dizer agora por esse nome,

0:43:38: eu sei que tem o mean absolute deviation é o my, tá? O mean absolute error, mas provavelmente se tem

0:43:47: esse median absolute deviation deve ser sim esse mesmo erro, tá? Legal, deixa eu ver aqui, vou te

0:43:55: dar o último erro e aí eu já volto para responder todas as perguntas possíveis e imagináveis que

0:44:01: tiverem aí no chat. Deixa eu colocar aqui então o MAP, o mean absolute percentage error, o erro

0:44:10: médio percentual absoluto, tá? Esse aqui é o queridinho de, das previsões que fazem, a previsão

0:44:19: de atendas desse tipo de coisa, é um erro que o pessoal que não é tão técnico consegue

0:44:25: interpretar melhor porque ele vai ser uma porcentagem ali, não sei exatamente por que, parece que as

0:44:32: pessoas entendem melhor esse erro, tá? E esse eu vou ter que definir na mão porque na verdade ele

0:44:38: não tem por padrão no Scikit-learn, né? Mas é muito simples, a gente vem aqui, MAP, Y,

0:44:45: deixa eu ver se eu não deixei o comentário, não deixei, legal, Y, pred e aqui a gente vai retornar

0:44:53: o seguinte, a gente vai retornar a média do seguinte, do valor absoluto, tá? Vamos com

0:45:08: calma aqui para a gente entender direitinho o que está acontecendo e também para eu não computar

0:45:12: a previsão. Então vai ser Y.true que é o valor verdadeiro menos a nossa previsão dividida pelo

0:45:22: valor verdadeiro, então basicamente a diferença dividida pelo valor verdadeiro que a gente tem,

0:45:28: tá? Acho que é isso mesmo, eu vou saber a hora que eu computar para ver se deu a mesma coisa que a

0:45:35: nossa bolinha aqui. Então copiando todas aquelas ideias novamente, eu coloquei aqui o MAP com

0:45:42: underline porque a nossa função já chama MAP e o MAP Outlier e vamos ver qual vai ser o resultado

0:45:51: aqui, sem Outlier ele tá dando ponto 42,59, mais ou menos aí, 43% de erro médio, com Outlier sobe

0:46:00: mais ou menos 48, não sobe tanto, a gente tá falando aqui dos erros é relativo, entre aspas

0:46:08: é o mesmo comportamento que a gente vê, claro que por ser o absoluto acaba sendo diferente,

0:46:14: mas entre aspas é um comportamento parecido quando a gente compara com o erro logarítmico

0:46:21: que cresce menos do que o erro quadrado normal, tá? Deixa eu ver aqui, tem uma outra coisa que eu

0:46:31: queria falar sobre esse erro que eu acho que eu tô me esquecendo, não, acho que era isso mesmo,

0:46:39: acho que era isso mesmo que eu queria falar sobre esse erro, basicamente esse aqui é muito fácil de

0:46:44: ver, então em média você erra 10%, é aquele negócio que eu falei, não sei matematicamente

0:46:51: dizer se é 10% para cima, para baixo, mas geralmente em previsão de vendas o pessoal quer ver um erro

0:46:58: de 10% ou menos, um erro médio absoluto percentual aí de 10% ou menos, um caso que eu trabalho eles

0:47:06: vão, se for muito difícil 30% talvez seja útil para a gente, mas o que a gente quer mesmo é 10%, tá?

0:47:14: Então é aquele negócio, 10%, se vende 100, se você prevê que vai vender 110 ou 90 o pessoal tá

0:47:20: contente com isso, tá? Legal, uma outra coisa, tá, lembrei, você vê aqui tá 42, mas Mário você

0:47:30: falou que esse erro até um certo ponto ali era praticamente o mesmo do erro logarítmico quadrado

0:47:37: lá, só que como eu te falei o erro do scikit-learn, o erro calculado internamente é com log do x mais 1,

0:47:45: não é só o log de x, então quando eu venho neste gráfico aqui, se eu mudar isso aqui para log 1p,

0:47:52: que a função interna que o scikit-learn usa, você vai ver que as curvas vão se distanciar, ó, eles abrem

0:48:01: mais um intervalo entre as curvas, então a gente perde essa vantagem de poder dizer que o erro médio

0:48:09: quadrado logarítmico, que a raiz quadrada dele é basicamente o mesmo valor do erro médio percentual

0:48:19: absoluto, tá? Infelizmente, porque senão seria muito legal a gente poder calcular o outro que é todo

0:48:26: bonitinho, contínuo e dizer que era equivalente, que era igual aquele ali, né, mas fazer o quê? A vida é assim.

0:48:34: Legal, deixa eu ver aqui quais são as perguntas, Alexandre, percentil está certo, quartil é quando

0:48:42: você diz 0,25, 50, 75, 100, se for de um e um se chama percentil, muito obrigado, então eu acertei ali.

0:48:50: Se você tem alguma pergunta sobre métrica, basicamente essas são as métricas, ah tá, uma coisa que eu preciso

0:48:58: falar, alguém pode pensar, Mário, mas você não vai falar do R quadrado, né, então o que que é o R

0:49:06: quadrado? R quadrado é um erro bastante popular na estatística, né, tanto de variância que ali

0:49:17: explicado pelo modelo, então a gente tem o R2, R squared, R quadrado, né, normalmente se usa o R

0:49:25: quadrado ajustado e tudo mais, mas eu vou deixar aqui esse link para quem quiser saber mais do por que

0:49:31: o negócio do R quadrado, seria que é provavelmente necessário uma live inteira para explicar porque

0:49:37: o R quadrado, os problemas que o R quadrado tem, mas eu vou deixar o link que aí quem tiver mais

0:49:44: interessado nessa nessa parte mais específica do R quadrado, pode ver aqui, é um link de um aluno

0:49:51: de um professor de estatística, agora não lembro, provavelmente é dessa Universidade de Virgínia,

0:49:56: que ele fez umas notas da sala do professor falando todos os problemas que ele via com o

0:50:05: R quadrado e porque geralmente você deve usar outra métrica, vale a pena dar uma olhada nisso aqui,

0:50:13: o título é meio forte, por que o R quadrado é inútil, não necessariamente eu tô falando que ele

0:50:18: é inútil, mas é bem interessante esse recurso do R quadrado, tá, é legal, deixa eu ver aqui, por favor,

0:50:27: quem postou perguntas que não eram relacionadas as métricas, por favor poste novamente para eu poder

0:50:32: responder, é porque aqui ele corre para caramba, deixa eu ver aqui, então Felipe Borges Mad, no caso

0:50:39: do desafio da coordination data science, que deveria ser previsto as notas de matemática, né, nem com uma taxa

0:50:43: de 90%, qual seria a melhor métrica? Então nesse desafio especificamente eu não consegui entender

0:50:52: exatamente como é que eles calculam essa métrica de 90%, tá, eu até cheguei a fazer umas submissões lá

0:50:59: para tentar entender, mas eu não entendi, seria interessante ver como é que eles explicam que eles

0:51:05: calculam essa taxa de acerto, no caso eu lembro que é um trabalho de regressão que você precisa,

0:51:13: né, como você falou, prevê as notas de matemática, eu tentaria usar erro médio quadrado e erro absoluto,

0:51:18: só que eu criaria um Excel, uma planilha, qualquer coisa, tentando correlacionar o erro que eu vejo

0:51:25: localmente, então erro quadrado, erro absoluto e tudo mais, com o erro quando eu mando para o site,

0:51:31: faz aí umas 5, 10 submissões se for possível, anota o erro médio quadrado, o erro absoluto e o erro

0:51:40: prevê quando mandou e aí você tenta correlacionar, ver qual erro correlaciona melhor com aquele que

0:51:45: você está tentando prever, normalmente o erro que correlacionar melhor você, as diferenças quando

0:51:51: forem grandes nesse erro, provavelmente vão se traduzir para a sua submissão, tá, mas quando a gente

0:51:56: não tem certeza de qual é a métrica, a gente não consegue calcular a métrica localmente,

0:52:02: geralmente você precisa achar uma métrica que seja correlacionada àquela que você está tentando

0:52:07: fazer e otimizar, tá. Mário, você vai falar sobre me-intuit-deviance? Não vou falar, como eu falei,

0:52:15: eu tô focando aqui nas mais utilizadas mesmo, tá, naquelas 20% você vai usar em 80% dos casos,

0:52:23: eu vi que tem a me-intuit-deviance lá, mas eu não olhei exatamente o que que ela está calculando,

0:52:31: na verdade eu nunca usei essa métrica para modelar, eu sei que ela normalmente, eu acho que é essa,

0:52:40: né, que é bem usada em questão de seguro, né, mas é, como é pouco usada eu vou deixar de fora.

0:52:47: Alexandre, Mário, desviano um pouco do tema da live, você normalmente usa aquela equação que tem a

0:52:53: distância interquartilica para detectar outliers, existe alguma outra forma melhor para identificá-los?

0:52:59: Olha, eu gosto de ver, sim, por exemplo, vai depender muito do caso, tem casos que 99%, né,

0:53:08: o valor que está ali acima do 99% não é outlier, tem casos que o valor acima dos 95 já é outlier,

0:53:17: então eu normalmente olho sim esses percentes altos e baixos, só que vai um pouco da intuição

0:53:28: para você conhecer o negócio, porque às vezes você precisa ter certeza se é um outlier ou se

0:53:33: não é uma coisa que você poderia, que é um valor que realmente pode acontecer. Uma técnica que eu

0:53:41: gosto muito, que aliás está no manual de data science, é o insorizar os outliers, tá, basicamente

0:53:49: você vai trazê-los todos para um valor menor, então se você tem lá retornos financeiros que vão

0:53:56: ser, sei lá, menos 50% a 60% num dia, retornos diários, só que você vê que 99% dos teus retornos

0:54:04: estão entre menos 8% e 8%, você vai cortar, em vez de você eliminar os outliers, você vai arredondar

0:54:12: esses outliers, vamos dizer, você vai trazê-los para esses valores extremos que estão ali dentro

0:54:17: de 99%, tá, o insorizar é o nome desse negócio, dessa técnica, dá uma olhada nisso aqui que é um

0:54:28: jeito que eu gosto de tratar o outlier no Y, tá, legal, Guilherme Bonaldo, existem evidências que

0:54:35: modelos de árvores melhoram sua assertividade ao descritizar a variável AL? Não, não, é aquele

0:54:42: negócio, pouquíssimos casos eu vi essa questão da discretização ser melhor do que você prevê a

0:54:51: regressão diretamente, normalmente isso acontece quando você tem muito zero, por exemplo, poucos

0:54:58: valores diferentes de zero, só que aí você pode fazer em dois passos, você primeiro prevê qual vai ser

0:55:03: diferente de zero e depois você faz a regressão sobre os que você previo que são diferentes de

0:55:07: zero, mas não, geralmente quando é regressão eu prefiro modelar diretamente como regressão do que

0:55:14: transformar em classificação, mas é aquele negócio, testa, vê o que funciona melhor no caso que você

0:55:19: está resolvendo, tá? Alberto, me disseram que era um R2, o desafio da Coordination, então outra

0:55:26: coisa, calcula aí R2, MSE e MAE e correlaciona com a métrica que você vê na submissão e tenta

0:55:36: abordar e ver qual delas correlaciona melhor, tá? Mário, você pensa em abordar DB Scan,

0:55:43: aglomerativo e uma Live? Não tenho planos, mas eu vou anotar a sugestão, que só tem uma Live sobre

0:55:51: clustering, eu nem lembro se eu fiz com aglomerativo clustering e DB Scan, acho que eu cheguei a mostrar,

0:55:58: mas só mostrei como é que usava, não falei muito sobre eles, mas eu vou anotar aqui com uma sugestão,

0:56:05: muito obrigado. Deixa eu ver aqui outra pergunta, Igor, Mário, eu tenho uma entrevista de estágio,

0:56:14: que legal, parabéns, consegui a entrevista a metade do caminho. Na sexta-feira, da próxima semana,

0:56:20: você pode me dar algumas dicas? Veja a Live sobre entrevista aqui do canal, tem uma Live só sobre

0:56:25: entrevista e saiba responder questões de como se aplica machine learning na vida real, tá? Pensa

0:56:39: nos projetos que você já fez, como é que você resolveu problemas, talvez eu te pergunto como você

0:56:44: resolveria o problema X ou Y, tá? Mas dá uma olhada na Live sobre entrevista aqui do canal,

0:56:50: que realmente vai esclarecer muita, muita coisa. Vinícius, é correto aplicar duas vezes pré-processamento

0:56:57: nas variáveis, por exemplo, on-hot, depois o PCA para reduzir? Não tem problema nenhum, se funcionar,

0:57:04: não tem problema nenhum, você pode aplicar quantas transformações você quiser, tá? Eu já fiz isso

0:57:11: uma vez de fazer o on-hot em coding depois do PCA, não lembro se deu resultado bom ou se deu resultado ruim,

0:57:17: mas não tem problema não. Felipe, R2 você aplica os modelos SVM com kernels diferentes do linear?

0:57:24: Porque o R2 está no plano 2D, o SVM acaba indo para mais dimensões, isso acaba não influenciando no R

0:57:34: quadrado quando a gente está avaliando o Y e a previsão, você pode aplicar com kernels

0:57:41: diferentes, não tem problema nenhum, Felipe. Mas como eu te falei, leia nesse link lá, acessa o

0:57:46: Facebook, lê esse link para pensar se realmente é legal usar o R quadrado. Mário, você considera

0:57:53: fazer uma live mais detalhada sobre séries temporais? Vou anotar também a sugestão, tá? É legal.

0:58:04: Henrique, vou a truncur específico sobre tunar modelos para essas métricas, tem um vídeo legalzinho

0:58:10: que vai falar sobre isso, tá? Mário, poderia comentar sobre problemas onde todas as variáveis têm

0:58:17: baixa correlação, como pensar em problemas desse tipo? Da mesma maneira como você pensa em outros

0:58:22: problemas, né? Eu já tive casos que as variáveis tinham correlação.05 quando eu tinha muita sorte,

0:58:29: tá? Então é aquele negócio, tenta usar modelos não lineares, porque a correlação, se você estiver

0:58:37: usando uma correlação linear, a Pearson, exatamente ela é linear, né? Então pode ser que no contexto,

0:58:46: junto com outras variáveis, um modelo não linear, um modelo de árvore, pode conseguir capturar

0:58:50: algumas relações que quando junta duas, três variáveis, ela acaba tendo uma correlação maior

0:58:56: para prever alguma coisa, né? Então é o mesmo procedimento, teste os modelos lineares, modelos

0:59:03: lineares e ver qual que funciona melhor, tá? Não tem muito segredo em termos de, assim, a correlação

0:59:10: das variáveis não deve te impedir de tentar modelar o problema, tá? Pode falar um pouco da

0:59:17: métrica que podemos usar para multiclasse? Sim, na última, dá uma olhada na última live, o F1 score,

0:59:24: precision, recall, o rock é o C, agora ele está expandido para multiclasse, apesar dele ser para

0:59:32: multicláreo, mas você pode medi-lo um contra todos, o log loss é muito usado para multiclasse,

0:59:39: também o capa que eu expliquei na última live é muito usado para multiclasse, dá uma olhada lá

0:59:43: que tem essas variáveis lá para multiclasse. Quando se tem somente um exemplo de um tipo no

0:59:51: data set, o que faz para predizer esse exemplo? Aí fica difícil, sem dados não dá muito para

0:59:58: fazer, o que você vê que tem solução para isso é em casos de imagem, né? Você pega um modelo

1:00:07: pré-treinado, você consegue treinar usando uma imagem só, né? Retreinar usando uma imagem só,

1:00:12: mas dependendo de como está esse exemplo, talvez não dê para fazer nada, justamente porque não tem,

1:00:21: se não tem dados, a gente não consegue prever. Vou pegar mais uma pergunta e aí a gente já encerra

1:00:28: aqui, deixa eu pegar uma pergunta fácil, porque meu cérebro já tá fritando nessas horas, tá?

1:00:38: Pegar essa aqui que é mais essa aqui, Fábio, você usa Google Collab para trabalhos maiores ou

1:00:45: você é GPU própria? Eu não uso Google Collab para trabalho maior, eu normalmente quando eu tenho

1:00:52: um negócio que precisa de alguma coisa muito mais, uma máquina melhor, eu acabo indo para AWS,

1:00:59: que é onde eu sei usar e geralmente é mais barato, e lá eu pego GPU, pego o que seja necessário,

1:01:05: tem várias alternativas, é aquele negócio, a alternativa que você souber usar bem, que você

1:01:12: souber ser mais produtivo é a melhor que tem, tá? Não tenho GPU própria, não pretendo ter GPU própria,

1:01:18: porque eu acho que não vale a pena, eu acho que é muito mais fácil alugar quando precisa na nuvem,

1:01:25: porque essas coisas avançam muito rápido, tá? E também nem tem onde colocar um computador com uma

1:01:31: GPU boa zona. Então é isso aí, pessoal, muito obrigado pela presença, essa foi a segunda live

1:01:41: sobre métricas, é basicamente essas duas lives cobrem a maior parte das métricas que você vai

1:01:48: usar em qualquer problema, existem métricas de ranking, existem métricas para não supervisionado,

1:01:56: existe um monte de coisa, mas na prática geralmente essas são as que você mais vai usar, é mais lógico,

1:02:04: vale a pena você estudar métricas específicas para os tipos de problema que você está tentando

1:02:08: resolver, tá? Aliás, só vou responder mais uma pergunta aqui da Adriana, que é uma pergunta muito

1:02:16: importante, é sempre bom usar mais de uma métrica para análise quando temos resultados de síntese,

1:02:20: qual seria uma solução? Você seleciona uma que vai ser a métrica primária, tá? Então, por exemplo,

1:02:26: se o outlier é importante, você foca mais nas métricas que levam o erro ao quadrado. Se os outliers

1:02:34: não são tão importantes, a central é mais importante, então vai para o erro médio absoluto,

1:02:38: então você sempre tem a métrica mais importante, mas eu gosto de olhar as outras métricas,

1:02:44: eu estava falando no começo da live sobre a questão do GPS, nem sempre o caminho que vai me levar mais

1:02:51: rápido no GPS eu quero, porque às vezes ele vai me fazer andar 20 km, 30 km a mais, então é bom

1:02:58: você ter várias métricas para você ter esse equilíbrio de acordo com o problema de negócio que

1:03:05: você está tentando resolver, tá? Você entendeu o que é mais importante, elas só vão te dar

1:03:10: informações diferentes de como o teu modelo está agindo, como o teu modelo está agindo em áreas

1:03:15: diferentes ali dos teus dados, tá? Mas sempre seleciona uma que é a primária e qual que é mais

1:03:20: adequada de acordo com o problema de negócio, sempre volta a isso, o problema de negócio que você

1:03:25: está tentando resolver, tá? Legal, muito obrigado, aproveitem o feriado, onde é feriado? Aqui era

1:03:34: feriado e é de novo, eu já não entendo mais nada aqui o que o governo está fazendo, então muito

1:03:40: obrigado e até quarta que vem, aliás o notebook está no bit.ly barra mario live 30, se você está

1:03:48: estudando ou não conhece ainda, veja aí o curso de data science.com e até a próxima quarta-feira, um abraço!