0:00:00: Seja muito bem-vindo, muito bem-vinda a essa série de vídeos onde nós vamos começar a aprender

0:00:04: machine learning desde os fundamentos. É para quem realmente não sabe nada de machine learning ainda.

0:00:11: A única coisa que você precisa saber para fazer esse curso, para assistir essa série de vídeos,

0:00:15: é programar em Python. Se você já quiser pular para a parte de conteúdo, você pode pular embaixo,

0:00:21: tem as marcações aqui no vídeo dos momentos de tempo em que cada coisa acontece, mas eu vou te

0:00:27: mostrar um pouco. Se você quiser entender como é que vão ser essas séries de vídeos, por que

0:00:30: eu estou fazendo isso, você continua ouvindo essa parte aqui. Eu queria há muito tempo já fazer um

0:00:35: curso de machine learning para iniciantes, realmente quem está iniciando do zero mesmo,

0:00:40: que não sabe nada de machine learning, mas tem 500 milhões de cursos de machine learning por aí que

0:00:45: eu posso indicar e também dá um trabalho enorme você estruturar um curso desse. Você tem que

0:00:51: refinar muito para ele ficar com uma didática, com uma estrutura boa para que você consiga aprender.

0:00:56: Então a ideia que eu tive aqui foi a seguinte, sempre sempre sempre tem alguém me perguntando

0:01:00: como é que eu começo, qual é a trilha, como é que você faria se você tivesse começando hoje.

0:01:04: Então resolvi unir o útil ao agradável. Eu resolvi pegar esse curso, que é um que eu

0:01:08: usaria para começar hoje, se eu estivesse começando a aprender machine learning, e eu resolvi fazer

0:01:13: essa série de vídeos fazendo esse curso para te levar pela mão por esse curso. Então esse é

0:01:19: um curso gratuito do Kaggle, você pode entrar aqui no Kaggle, se cadastrar, você vai ver aqui no canto,

0:01:23: Courses, é só você entrar e selecionar lá Introdução a Machine Learning. Só que mais legal ainda

0:01:28: do que você fazer sozinho esse curso é você poder fazer tendo esse apoio, vamos dizer assim,

0:01:33: em vídeo de alguém mais experiente, alguém que já entende machine learning também, porque eu posso

0:01:37: usar a estrutura didática toda que eles já refinaram aqui para que a gente possa para te explicar melhor

0:01:42: as coisas, para comentar melhor o que está acontecendo, resolver os exercícios e tudo mais. Enfim,

0:01:46: é para te ajudar, é um material de apoio para esse curso aqui. Eu não estou ganhando nada do Kaggle,

0:01:51: não estou ganhando nada para fazer isso aqui, tirando logicamente o anúncio que você provavelmente

0:01:55: vê aqui no começo do vídeo, mas enfim, eu espero que você goste, eu quero fazer um vídeo para cada

0:02:00: uma dessas partes desse curso aqui, justamente para poder ter um material bom que te leve do zero,

0:02:06: até entender de machine learning para conseguir fazer seus próprios modelos, e esse material do

0:02:10: Kaggle é um dos melhores materiais que eu conheço para isso hoje. Vamos lá então, primeira lição

0:02:15: aqui é como funcionam os modelos, é o primeiro passo para machine learning, e essa primeira aula

0:02:21: não vai ser tão super legal do ponto de vista de código, porque a gente, essa primeira lição é

0:02:25: mais para você entender o que é esse tal de machine learning, como é que funciona isso, e eu gosto

0:02:30: muito do exemplo que eles dão aqui. Eles falam o seguinte, você vai aprender a criar modelos,

0:02:35: se você já lidou com modelagem estatística ou machine learning, isso aqui vai ser bem básico,

0:02:40: então você até pode pular esse vídeo inteiro, vai para o segundo vídeo, mas se não, entenda esse

0:02:44: vídeo aqui que ele vai te mostrar o que é machine learning na prática. O exemplo que eles dão é o seguinte,

0:02:50: seu primo, aliás, você vê que está todo inglês aqui, eu recomendo que você faça um curso de

0:02:54: inglês em paralelo com o aprendizado machine learning, porque pelo menos hoje, você pode

0:02:59: até ir um pouco longe sem saber inglês nessa área, mas assim, vai ser muito muito limitado o teu

0:03:05: conhecimento, porque a maioria dos bons materiais estão em inglês, tudo que é novo na área é inglês.

0:03:10: Então vamos lá, seu primo ganhou milhões de dólares especulando no mercado imobiliário tal,

0:03:15: e ele te ofereceu ser sócio, porque você tem interesse em data science, ele te ofereceu ser sócio

0:03:21: nos empreendimentos, ele vai te dar o dinheiro e você vai criar os modelos para prever quanto que

0:03:26: uma casa vale, qual é o preço de uma casa, provavelmente para ele comprar, reformar, revender,

0:03:31: sei lá. E aí você pergunta para seu primo, como é que você fez essas previsões até hoje,

0:03:36: e ele fala que ele usava a intuição, mas quando você questiona mais um pouco, ele identificou

0:03:42: esses padrões de preço nas casas que ele viu, e aí ele usa esses padrões para prever o preço de

0:03:48: novas casas. Basicamente a ideia, o cara construtor, ele está acostumado a ver uma casa, quantos

0:03:54: quartos tem, quantos banheiros, qual é o material de acabamento, qual é a região da casa, qual é a

0:04:00: demanda por casas, sei lá, para pessoas solteiras, para famílias de, para casais novos, ou então para

0:04:06: famílias com quatro filhos, então ele vai pegando uma ideia mais ou menos que ele consegue relacionar

0:04:11: com esses padrões que ele vai vendo, ao preço que ele pode esperar ganhar numa casa que ele vai

0:04:16: construir. E essa é a mesma ideia do machine learning, e aqui eles vão começar com um modelo

0:04:20: simples, simples, mas que acaba sendo muito poderoso conforme você vai estudando mais machine learning,

0:04:25: que é a árvore de decisão. E do ponto de vista de poder preditivo, não é o melhor modelo do mundo

0:04:31: que você vai ter, mas você vai ver que com o tempo, primeiro que para entender machine learning,

0:04:35: como é que um modelo chega a uma decisão, é muito fácil, muito bom de você entender, para você

0:04:41: interpretar como o modelo está chegando a uma decisão, é muito interessante usar uma árvore de decisão,

0:04:46: e você vai ver que quando você combina essas árvores de decisão, você acaba tendo modelos

0:04:50: muito poderosos, que aí sim você pode usar para ter o melhor acerto, o menor erro que você puder

0:04:57: dentro de um banco de dados. Então vamos lá, eles aqui colocam esse desenho, que é o seguinte,

0:05:02: uma árvore de decisão, uma amostra de uma árvore de decisão. Então por exemplo, vamos dizer que você

0:05:08: fosse tomar uma decisão simples para definir o preço de uma casa, você ia falar assim, a casa tem mais de

0:05:13: dois quartos, se a casa tiver mais de dois quartos, você vai prever que o preço dela é $188 mil,

0:05:17: se a casa tiver menos de dois quartos, você vai prever que é $178 mil, isso aqui é uma árvore

0:05:22: de decisão simples, seria, pode até ser considerado um modelo de machine learning extremamente simples,

0:05:27: tá? Eles não são nada mais do que basicamente essa ideia. Então o que eles falam aqui, que ele

0:05:32: vai prever a casa em duas categorias, e aí ele vai usar a média histórica de preços de casas na

0:05:38: mesma categoria para prever os preços das próximas, que faz todo o sentido se você pensar, é, vamos

0:05:44: pensar por exemplo, no exemplo de temperatura, se você estivesse usando qual mês do ano é para

0:05:50: prever a temperatura média que vai ser no mês de setembro de 2021, por exemplo. Então em setembro

0:05:55: de 2021, se eu pegar todos os meses de setembro anteriores e fizer a média da temperatura,

0:06:00: provavelmente eu vou ter uma temperatura muito próxima da que vai ser real em setembro, por quê?

0:06:04: Porque é uma estação, é a mesma estação do ano, é tudo parecido, vai ser diferente se eu pegar,

0:06:08: por exemplo, a média de temperatura no mês de julho ou de junho e prever que vai ser essa em

0:06:14: setembro. Então se a gente categorizar, em vez de uma árvore de decisão aqui que divide casos,

0:06:19: se a gente tivesse uma árvore de decisão que divide por mês, então no mês de setembro a gente vai

0:06:23: prever, é setembro, então a média dos outros meses de setembro vai ser a nossa previsão e assim vai.

0:06:30: E eles expandem um pouco isso do ponto de vista mais abstrato, mais um conceito, então nós estamos

0:06:35: usando dados para definir como é que a gente vai, digamos assim, dividir, subdividir essas casas,

0:06:41: esses grupos de casas que a gente tem e aí determinar o preço previsto. E eles falam,

0:06:47: esse passo de capturar os padrões dos dados é o que a gente chama de fitting, ou treinar o modelo,

0:06:52: então de até talvez estimar o modelo, apesar do que eu acho que do ponto de vista estatístico,

0:06:57: eu não tenho certeza se a gente pode usar essa palavra, mas a gente treina o modelo para achar

0:07:02: esses padrões e aí a gente chama os dados que a gente usou para treinar o modelo de dados de

0:07:07: treino, não surpreendentemente. Então voltando para o nosso exemplo aqui das casas, a gente tem lá um

0:07:13: conjunto de casas, vamos dizer que a gente tenha 10 casas que a gente sabe o preço, saiba as

0:07:17: características e de todas as características que a gente tem nesses dados, o modelo falou,

0:07:22: aqui eu posso usar melhor para dividir esses dados, é a característica número de quartos,

0:07:27: então vamos dizer que você tinha, sei lá, número de quartos e área total em metros quadrados da casa,

0:07:31: aí você fala para o modelo, eu quero que você preveja esse, eu quero que você tente prever o preço,

0:07:37: escolhe uma dessas duas aí para você fazer uma divisão, dividir as casas nos grupos de acordo com

0:07:43: essa variável no caso que você selecionou e aí você me faz a previsão, então o modelo ele vai

0:07:48: pegar dentre essas variáveis e aqui a gente está falando de duas variáveis, a metragem na casa e

0:07:54: o número de quartos, mas você pode ter literalmente milhões de variáveis no modelo e aí o modelo é

0:08:00: que vai definir como é que ele vai dividir esses dados, como é que ele vai agrupar esses dados para

0:08:04: que ele possa fazer uma previsão com o menor erro possível, então se o melhor modo de dividir esses

0:08:10: dados, caso melhor modo de diferenciar uma casa da outra em termos de preço, for o número de quartos,

0:08:16: ele vai selecionar o número de quartos, se for a área da casa ele vai selecionar a área da casa e

0:08:22: vai dividir de acordo com esse critério, então isso que é o treinamento, é quando o modelo está

0:08:27: procurando qual é a melhor forma de dividir esses dados, de encontrar esses padrões para poder fazer

0:08:33: uma previsão com maior acerto possível baseado nessas características, aí ele fala os detalhes

0:08:38: de como a gente vai treinar esse modelo, vão ser um pouco mais para frente, mas depois que você fez

0:08:44: esse treinamento do modelo, então você usou lá os 10 casos que você tem para treinar o seu modelo,

0:08:48: você vai ter o modelo lá, ele vai aprender esse padrão, vai salvar em algum lugar, por exemplo,

0:08:53: essa divisão entre casas demais, com casas que têm mais que dois quartos e casas que têm menos de

0:08:58: dois quartos e aí você pode usar essa regra para prever em novos dados, só que imagine que o modelo

0:09:02: ele vai ter várias dessas regras, você vai ver no futuro que quando a gente treina o modelo ele

0:09:07: vai ter várias dessas regrinhas, modelos de árvore de decisão e aí depois você vai poder

0:09:12: prever novos dados, você vai poder pegar as mesmas características de uma casa, então uma casa que

0:09:16: o modelo nunca viu, você vai passar essas características para o modelo, ele vai meio que

0:09:21: jogá-las dentro, né, de onde ser dessas regrinhas que ele aprendeu e vai te dar a nova previsão,

0:09:27: igual a gente está vendo aqui, então vamos lá, caiu aqui, entrou aqui no primeiro nó e aí vai

0:09:33: para o lado do sim ou lado do não e aí faz a previsão no preço determinado, você fala

0:09:38: Mario, mas como é que o modelo decide isso aí? E claro, matematicamente é um pouquinho mais complicado

0:09:43: para a gente, não interessa para a gente nesse momento, mas eles dão esse exemplo muito legal,

0:09:49: eles falam o seguinte, qual dessas duas árvores de decisão você acha que é mais, corresponde mais

0:09:55: com a realidade, ele te dá o exemplo, ele usa o mesmo nó, então ele fala, a casa tem mais de

0:10:01: dois quartos e aí para o lado direito assim, para o lado esquerdo é não, só que na primeira árvore,

0:10:05: se a casa tem menos de dois quartos, dois ou menos quartos, vamos dizer, ele vai prever 178 mil,

0:10:12: se ela tem dois ou mais quartos, se ela tem mais de dois quartos, ele vai prever 188 mil,

0:10:17: nessa segunda árvore de decisão ele fala, mesma coisa dos dois quartos, só que se a casa tem

0:10:22: menos de dois quartos, tem dois ou menos quartos, ele vai prever 188 e se ela tem mais de dois quartos,

0:10:27: ele vai prever 178, então qual a ideia aqui, a gente tem uma árvore de decisão que quanto mais quartos

0:10:32: tem a casa, maior é o preço e a gente tem uma árvore de decisão que quanto mais quartos tem a

0:10:36: casa, menor é o preço, então só muda o preço aqui, basicamente, aí eu te pergunto, intuitivamente

0:10:41: uma casa que tem mais quartos, ela tende a ser mais cara ou mais barata, ela tende a ser mais

0:10:46: cara geralmente, casa com 20 quartos vai ser mais cara do que uma casa com um quarto e aí ele fala,

0:10:51: a árvore de decisão da esquerda provavelmente faz mais sentido, porque captura nesse padrão que a

0:10:56: gente acabou de falar aqui, ele fala só que tem um problema, porque a gente está considerando só

0:11:01: uma característica, que é o número de quartos e a gente está esquecendo de todos os outros

0:11:06: características, tamanho do terreno, etc e tal, e aí ele fala, mas a gente pode fazer uma árvore

0:11:11: de decisão mais profunda, que tenha mais splits, tenha mais divisões, vamos dizer, e essas árvores

0:11:17: são chamadas árvores mais profundas, justamente, então quanto mais nós você vai colocando na sua

0:11:22: casa, pense em cada retângulo desse, cada retângulo azul como um nó, cada retângulo desse, quanto mais

0:11:27: para baixo você vai, mais profunda está sendo a sua árvore e você pode fazer, você não,

0:11:34: mas assim o seu modelo ele pode aprender árvores mais profundos em termos de juntar várias

0:11:38: condições para poder fazer uma previsão de preço, então nesse caso, no exemplo que eles dão aqui,

0:11:43: eles pegam, se a casa tem mais de dois quartos e o tamanho do terreno é maior do que 11.500

0:11:50: quadrados, eles prevêem 233 mil, só que se a casa tiver mais de dois quartos, mas o tamanho do

0:11:56: terreno for menor do que 11.500, menor ou igual, no caso, se a gente quiser ser bem chato, ele vai,

0:12:01: ele prevê 170 mil e assim vai, você pode fazer exercício aqui, a casa tem menos de, tem mais de

0:12:07: dois quartos? Não, o tamanho do terreno é maior ou menor do que isso aqui? Sim ou não? E aí você

0:12:12: pode ver a previsão de preços também, e é basicamente a mesma ideia, o teu exemplo ele vai

0:12:17: indo pela árvore decisão até chegar no nó final, mas o que eu quero que você entenda é que a tua

0:12:22: árvore ela pode ter mais de uma divisão nela mesma, ela pode ir com várias regrinhas, a gente

0:12:27: poderia ter mais outra regrinha aqui embaixo e assim vai, ela vai ficando mais profunda, e para

0:12:32: finalizar eles colocam o preço previsto é o que está no final da árvore e é chamado de um nó,

0:12:38: no caso leaf, uma folha, mas a gente pode chamar de nó aqui em português, ele fala as divisões,

0:12:44: nos nós finais, basicamente o nó final seria uma leaf, uma folha nesse caso, vão ser determinados

0:12:52: pelos dados, então é hora da gente ver os dados que a gente vai estar trabalhando, então no próximo

0:12:56: vídeo nós vamos continuar esse tutorial para ver esse segundo, essa segunda aula de examinar os

0:13:02: dados, espero que você tenha gostado, deixe seu like, compartilhe, se inscreva no canal e comente

0:13:07: o que te ajudou, é isso aí, um abraço e até a próxima.