Fluência em dados (data literacy)
A fluência em dados (data literacy) é a capacidade de ler, trabalhar, analisar e argumentar utilizando dados. Mais do que conhecimento técnico profundo, é a habilidade de extrair conhecimento útil para resolver problemas reais e tomar decisões estratégicas com base em fatos, e não na intuição.
Data Warehouse (DW) e Business Intelligence (BI)
Um Data Warehouse (DW) é um repositório centralizado que consolida e armazena dados históricos de múltiplas fontes de uma organização. Ele é a fundação de um sistema de Business Intelligence (BI), permitindo análises rápidas, criação de relatórios e tomada de decisões estratégicas baseadas em dados.
Mineração de dados (data mining)
A mineração de dados (data mining) é o processo de analisar grandes volumes de dados para descobrir padrões, anomalias e correlações ocultas. Ela transforma dados brutos em conhecimento acionável utilizando estatística, inteligência artificial e aprendizado de máquina para melhorar a tomada de decisões.
Machine Learning (Aprendizado de Máquina)
O Machine Learning (Aprendizado de Máquina) é um subcampo da Inteligência Artificial. Em vez de seguir regras programadas manualmente, os algoritmos analisam grandes volumes de dados, identificam padrões e aprendem a tomar decisões ou fazer previsões de forma autônoma.
Processamento de Linguagem Natural
O Processamento de Linguagem Natural (PLN) é uma ramificação da Inteligência Artificial que capacita computadores a compreender, interpretar e gerar a linguagem humana, tanto em formato de texto quanto de voz. Ele atua como uma ponte entre a comunicação natural das pessoas e os dados binários das máquinas.
Big Data - Fluência de dados
Big Data refere-se a conjuntos de dados extremamente volumosos e complexos que ultrapassam a capacidade dos softwares tradicionais de processamento. Ele permite extrair insights valiosos para tomada de decisões a partir de três pilares: Volume, Velocidade e Variedade.
Hadoop, Spark e Big Data
Este ebook resume os principais pontos sobre Apache Hadoop, Apache Spark, soluções do ecossistema Big Data, Ciência de Dados e Cloud Computing. A ideia é estudar com páginas curtas, linguagem direta, exemplos práticos e pontos para decorar. Use este material como revisão antes das questões, principalmente para diferenciar HDFS, YARN, MapReduce, Spark, Hive, Impala, Oozie, Kafka e Data Science.