Detalhes do Projeto
Projeto realizado para desenvolvimento na área e uso e reforço/novos conhcimentos de ferramentas como Selenium e PySpark.
Informações
- Categoria: Automação
- Funções: ETL, Automação e Análise de Dados
- Data: Janeiro, 2025
- URL: GitHub
Monitoramento de Promoções com Selenium e PySpark
Este projeto foi desenvolvido com o objetivo de aplicar e consolidar conhecimentos em Web Scraping, Engenharia de Dados e Visualização Interativa. Automatizei o processo de coleta e tratamento de dados de ofertas de jaquetas promocionais no site da Farfetch, utilizando um pipeline completo com Selenium, PySpark, Pandas, PostgreSQL, Airflow e Streamlit.
Etapas do Projeto
- Scraping automatizado: Extração de dados de produtos promocionais via Selenium.
- ETL escalável: Processamento com PySpark e Pandas para gerar insights como faixa de desconto, classificação e variação de preço.
- Persistência dos dados: Armazenamento estruturado em arquivos CSV, Parquet e banco PostgreSQL.
- Dashboard visual: Aplicação com autenticação no Streamlit para explorar as promoções e tendências.
- Automação com Airflow: DAG configurada para realizar scraping mensal automaticamente em ambiente Dockerizado.
Tecnologias Utilizadas
🔹 Python 🔹 Selenium 🔹 Pandas 🔹 PySpark 🔹 Streamlit 🔹 PostgreSQL 🔹 Docker 🔹Airflow
Este projeto demonstra minha capacidade de integrar ferramentas modernas de dados em um fluxo funcional e automatizado, sendo ideal para aplicações em monitoramento de e-commerce e engenharia de dados.