2 Probabilidade

2.1 Introdução

Neste capítulo, abordaremos as definições de probabilidade e suas relações com o espaço amostral e os eventos. Os objetivos deste capítulo são:

Conhecer as interpretações de probabilidade.
Conhecer as regras para o cálculo de probabilidade e suas relações

Regra da adição
Probabilidade condicional
Regra da multiplicação
Eventos dependentes e independentes
Teorema de Bayes

2.2 Definições de Probabilidade

A definição classica de probabilidade foi proposta por Pierre-Simon Laplace em 1812, no livro “Théorie analytique des probabilités”. Laplace definiu a probabilidade de um evento como a razão entre o número de casos favoráveis ao evento e o número total de casos possíveis, desde que todos os casos sejam igualmente prováveis. A definição clássica de probabilidade foi questionada por diversos autores do século XIX e XX, pois ela pressupõe que o espaço amostral é finito e que todos os resultados são equiprováveis, o que nem sempre é verdade. Além disso, a definição clássica de probabilidade não é aplicável a experimentos aleatórios com um número infinito de resultados possíveis.

A definição frequentista de probabilidade foi proposta Richard von Mises em 1928, no livro “Wahrscheinlichkeit, Statistik und Wahrheit”. Mises definiu a probabilidade de um evento como a razão entre o número de vezes que o evento ocorre e o número total de vezes que o experimento é repetido, desde que o número de repetições seja grande o suficiente. A definição frequentista de probabilidade foi questionada por diversos autores do século XX, pois ela pressupõe que o experimento pode ser repetido um número infinito de vezes, o que nem é possível na prática. A probabilidade frequentista define a probabilidade de um evento (a probabilidade a longo prazo ) como o limite da sua frequência relativa em infinitas tentativas.

A definição axiomática de probabilidade foi proposta por Andrey Kolmogorov em 1933, no livro “Grundbegriffe der Wahrscheinlichkeitsrechnung”. Kolmogorov definiu a probabilidade de um evento como uma medida de probabilidade que satisfaz três axiomas: não-negatividade, normalidade e aditividade. Os axiomas da probabilidade não especificam nem pressupõem qualquer interpretação particular de probabilidade, mas podem ser motivados partindo de uma definição filosófica de probabilidade e argumentando que os axiomas são satisfeitos por essa definição

A probabilidade de uma evento pode ser intepretada e definida de diferentes formas, de acordo com os seus autores:

Definição Clássica (Laplace)

Quando o espaço amostral $\Omega$ é finito e todos os seus elementos são estruturalmente equiprováveis, por simetria ou por razão lógica, antes de qualquer observação, a probabilidade de um evento $A$ é:

\[ P(A) = \frac{|A|}{|\Omega|} \]

Expressão por extenso:

\[ \textrm{Probabilidade teórica do evento A} = \frac{\text{número de vezes que o evento A ocorre no espaço amostral} }{\text{número de elementos do espaço amostral}} \]

onde $|A|$ é o tamanho ou número de resultados favoráveis ao evento $A$ e $|\Omega|$ é o tamanho ou número de elementos no espaço amostral.

Esta é chamada de probabilidade a priori: é determinada pela estrutura do experimento, não por dados coletados.

Premissas:

Número finito de possíveis resultados
Hipótese de equiprobabilidade de resultados - resultados igualmente prováveis

Deficiências:

Não faz sentido para espaço amostral infinito
Não é capaz de definir a probabilidade de eventos supostamente não equiprovavéis - resultados não igualmente prováveis

Definição Frequentista (Von Mises)

Baseada na observação empírica. Se um experimento é repetido $n$ vezes e o evento $A$ ocorre $n_A$ vezes, a probabilidade é o limite:

\[ P(A) = \lim_{n\to\infty} \frac{n_A}{n} \] Expressão por extenso:

\[ \text{Probabilidade empírica do evento A} = \lim_{n\to\infty} \frac{\text{número de vezes que o evento A ocorreu} }{\text{número de repetições do experimento}} \]

Premissas:

Número “suficientemente” grande de repetições do experimento aleatório
Condições uniformes para realização do experimento
Ideal para resultados não igualmente prováveis

Deficiências:

Definição de um número “suficientemente” grande
Não é capaz de definir a probabilidade de eventos que não podem ser repetidos

A outra interpretação de probabilidade é o do conceito subjetivo, porém esse não será tratado neste material.

As interpretações de probabilidades não são suficientes para a formulação rigorosa da probabilidade como é o caso de outras disciplinas da matemática, dessa forma Kolmogorov apresentou um conjunto de axiomas para definir probabilidade.

Definição Axiomática (Kolmogorov)

\[ P:\mathcal{A} \longrightarrow \mathbb{R} \] A função de probabilidade toma um argumento $A$ e retorna um valor numérico.

Uma medida de probabilidade matemática estrita satisfaz:

Axioma 1 - Não-negatividade: Para qualquer evento $A$, $P(A) \ge 0$
Axioma 2 - Normalidade: $P(\Omega) = 1$
Axioma 3 - Aditividade: Se $A_1,A_2,A_3,...$ é uma sequência infinita de eventos disjuntos (mutuamente exclusivos), então: $P(A_1 \cup A_2 \cup A_3 \cup \cdots)=\sum_{i=1}^{\infty}{P(A_i)}$
- Ou seja, para dois eventos mutuamente exclusivos, teríamos ($A \cap B = \emptyset$), $P(A \cup B) = P(A) + P(B)$.

A seguir temos as consequências dos axiomas de Kolmogorov.

Consequências dos Axiomas (Clique para expandir)

$P(\emptyset) = 0$
$P(A^c) = 1 - P(A)$, onde $A^c$ é o evento complementar.
$P(A \cup B) = P(A) + P(B) - P(A \cap B)$
Limites da probabilidade: $0 \le P(A) \le 1$
Monotonicidade: Se $A \subseteq B$, então $P(A) \le P(B)$

Probabilidade do conjunto vazio: $P(\emptyset) = 0$

Demonstração:

Sabemos que \[ \Omega = \Omega \cup \emptyset \]

Como $\Omega$ e $\emptyset$ são disjuntos, pela aditividade: \[ P(\Omega) = P(\Omega) + P(\emptyset) \]

Subtraindo $P(\Omega)$ dos dois lados: \[ P(\emptyset) = 0 \]

Regra do Complemento: $P(A^c) = 1 - P(A)$

Demonstração:

Observe que \[ \Omega = A \cup A^c \]

e que $A \cap A^c = \emptyset$.

Logo, \[ P(\Omega) = P(A) + P(A^c) \]

Como $P(\Omega) = 1$: \[ P(A^c) = 1 - P(A) \]

Limites da Probabilidade: $0 \le P(A) \le 1$

Demonstração:

Pelo axioma da não-negatividade, $P(A) \ge 0$.

Além disso, como \[ \Omega = A \cup A^c \]

temos \[ 1 = P(A) + P(A^c) \]

Como $P(A^c) \ge 0$, segue que \[ P(A) \le 1 \]

Monotonicidade: Se $A \subseteq B$, então \[ P(A) \le P(B) \]

Demonstração:

Se $A \subseteq B$, podemos escrever \[ B = A \cup (B \setminus A) \]

com união disjunta.

Logo, \[ P(B) = P(A) + P(B \setminus A) \]

Como $P(B \setminus A) \ge 0$, segue que \[ P(B) \ge P(A) \]

Fórmula da União de Dois Eventos: $P(A \cup B) = P(A) + P(B) - P(A \cap B)$

Demonstração:

Podemos decompor $B$ como \[ B = (A \cap B) \cup (A^c \cap B) \]

com união disjunta. Assim, \[ P(B) = P(A \cap B) + P(A^c \cap B) \]

Agora escrevemos \[ A \cup B = A \cup (A^c \cap B) \]

Também é união disjunta, então \[ P(A \cup B) = P(A) + P(A^c \cap B) \]

Substituindo \[ P(A^c \cap B) = P(B) - P(A \cap B) \]

obtemos \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Subaditividade: $P(A \cup B) \le P(A) + P(B)$

Justificativa:

Da fórmula anterior, \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Como $P(A \cap B) \ge 0$, concluímos que \[ P(A \cup B) \le P(A) + P(B) \]

Comentário Final

Essas propriedades mostram que a probabilidade se comporta como uma medida de tamanho para conjuntos.

A partir apenas desses três axiomas, toda a teoria da probabilidade é construída: probabilidade condicional, independência, Teorema de Bayes, variáveis aleatórias e resultados assintóticos.

2.2.0.1 Exemplo

$\mathcal{E}$: Lançamento de uma moeda, uma única vez (sem especificar se é justa ou não).
$\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa.

Os axiomas especificam que $P(\Omega) = 1$, de forma que, para completar a atribuição de probabilidade, falta apenas determinar $P(H)$ e $P(T)$.

Já que $H$ e $T$ são os resultados do experimento, são também eventos simples e naturalmente mutuamente exclusivos, assim, $H \cup T = \Omega$, o Axioma 3 implica que $1 = P(\Omega) = P(H) + P(T)$.

Essa expressão implica que $P(T) = 1 - P(H)$ ou $P(H) = 1 - P(T)$.

A única liberdade permitida pelos axiomas nesses experimentos é a escolha de um valor para a probabilidade atribuída a um dos eventos simples, por exemplo $H$.

Uma possível atribuição de probabilidades é $P(H) = 0.5$, $P(T) = 0.5$, enquanto outra atribuição possível é $P(H) = 0.75$, $P(T) = 0.25$, e assim por diante.

De fato, representar $p$ por qualquer número fixo entre 0 e 1, assim:

$P(H) = p$
$P(T) = 1 - p$

é uma atribuição consistente com os axiomas.

2.2.0.2 Exemplo

$\mathcal{E}$: Considere um sistema de cinco componentes idênticos ligados em série, conforme ilustrado na Figura 2.1. Represente um componente que falha por F e o que não falha por S (de sucesso). Represente por $A$ o evento em que o sistema falha
$\Omega$: O espaço amostral é $\Omega = \{SSSSS, SSSSF, SSSFS, ... \}$. $S$ sucesso e $F$ falha.

flowchart LR
    I[" "] L_I_A_0@--> A[" "]
    A L_A_B_0@--> B[" "]
    B L_B_C_0@--> C[" "]
    C L_C_D_0@--> D[" "]
    D L_D_E_0@--> E[" "]
    E L_E_F_0@--> F[" "]

    I@{ shape: f-circ}
    F@{ shape: f-circ}

    L_I_A_0@{ animation: slow } 
    L_A_B_0@{ animation: slow } 
    L_B_C_0@{ animation: slow } 
    L_C_D_0@{ animation: slow } 
    L_D_E_0@{ animation: slow } 
    L_E_F_0@{ animation: slow }

Figura 2.1

Para que $A$ ocorra, ao menos um dos componentes individuais deve falhar. Os resultados de $A$ incluem $SSFSS$ (1, 2, 4 e 5 funcionam, mas 3 não), $FFSSS$ e assim por diante. Na verdade há 31 diferentes resultados em $A$. Entretanto, $A$, o evento em que o sistema funciona, consiste em um único resultado $SSSSS$.

Na próxima seção veremos que se 90% de todos esses componentes não apresentarem falhas e se componentes diferentes apresentarem falhas independentemente um do outro, $P(A^c) = P(SSSSS) = 0.90^5 = 0.59$. Portanto, $P(A) = 1 – 0.59 = 0.41$. Dessa forma, em um grande número de tais sistemas, cerca de 41% apresentarão falhas.

Para o cálculo de probabilidades, devemos, com base no experimento aleatório, definir o espaço amostral e os eventos de interesse e a lei de probabilidade.

Lei de equiprobabilidade: quando todos os resultados (ou eventos simples) tem a mesma probabilidade de ocorrer.
Lei de não equiprobabilidade: quando os resultados (ou eventos simples) não tem a mesma probabilidade de ocorrer.

2.2.0.3 Exemplo

$\mathcal{E}$: Lançamento de uma moeda justa, uma única vez.
$\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa.
Eventos simples: $A = \{H\}$ e $B = \{T\}$.
Lei de equiprobabilidade: resultados igualmente prováveis.
Definição clássica de probabilidade:

\[P(A) = \frac{|A|}{|\Omega|} = \frac{1}{2}\]

Figura 2.2: Exemplo de lançamento de moeda justa

2.2.0.4 Exemplo

$\mathcal{E}$: Lançamento de uma moeda não justa, uma única vez.
$\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa.
Lei de não equiprobabilidade: resultados não igualmente prováveis. $P(H) = p, P(T) = 1 - p$
Definição frequencista de probabilidade:

\[P(A) = \lim_{n \to \infty} \frac{n(A)}{n}\]

Figura 2.3: Exemplo de lançamento de moeda viesada

Para obtermos a probabilidade desse resultado devemos executar o experimento um grande número de vezes. Faremos então uma simulação para estimar essa probabilidade.

Código

library(ggplot2)

set.seed(42)

# Imagine que a "verdadeira" frequencia de H é 0.60
p_H <- 0.60

# Simular N lançamentos individuais
N_max    <- 2000
resultados <- rbinom(N_max, size = 1, prob = p_H)
freq_rel   <- cumsum(resultados) / seq_along(resultados)
df_conv    <- data.frame(n = 1:N_max, freq = freq_rel)

ggplot(df_conv, aes(x = n, y = freq)) +
  geom_line(color = "#2c7bb6", linewidth = 0.8) +
  geom_hline(yintercept = p_H, linetype = "dashed",
             color = "#d7191c", linewidth = 1) +
  annotate("text", x = 100, y = p_H + 0.05,
           label = sprintf("P(H) ≈ %.2f", p_H),
           color = "#d7191c", size = 4) +
  labs(
    x = "Número de lançamentos (N)",
    y = "Frequência relativa de caras",
    title = "Convergência Empírica: Lei dos Grandes Números",
    subtitle = "Lançamento de uma moeda viesada"
  ) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1),
                     limits = c(0, 1)) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title    = element_text(face = "bold"),
    panel.grid.minor = element_blank() )

Figura 2.4: Convergência da frequência relativa de caras (linha vermelha pontilhada = estimativa estabilizada de 60%). Com poucas amostras a frequência oscila; com N grande ela converge.

Lei dos Grandes Números: informa que quanto mais observações são coletadas, a proporção de ocorrência de um resultado particular converge na probabilidade daquele resultado.

3 Regras para o cálculo de probabilidades

Agora veremos as regras para o cálculo de probabilidades. Elas auxiliam no cálculo de probabilidades de eventos mais complexos.

3.1 Regra da adição

A regra da adição é utilizada para calcular a probabilidade da união de dois ou mais eventos. No caso de dois eventos ela se refere a probabilidade de $A$ ou $B$ ou ambos ocorrerem.

Se os eventos forem mutuamente exclusivos, a regra da adição é simplificada para:

\[ P(A \cup B) = P(A) + P(B) \]

Figura 3.1: União de dois eventos mutuamente exclusivos

Se os eventos não forem mutuamente exclusivos, a regra da adição é: \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Figura 3.2: União de dois eventos não mutuamente exclusivos

Para três eventos: \[ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) \]

Figura 3.3: União de três eventos não mutuamente exclusivos

A união pode se dar sobre um conjunto finito ou infinito de eventos, segundo o Axioma 3 de Kolmogorov.

Regra da adição

De maneira simplificada, a regra da adição:

Para dois eventos: \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Para três eventos:

\[ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) \]

Onde, para $n$ eventos, o cálculo da probabilidade da união é bastante demandante.

Uma lei muito útil para o cálculo de probabilidades da união de múltiplos eventos é a lei de DeMorgan`s, que diz o seguinte:

Lei de DeMorgan`s

A lei explicita que é possível calcular a união de múltiplos eventos calculando a intersecção dos eventos complementares.

\[(A \cup B)^c = A^c \cap B^c\] \[(A \cup B \cup C)^c = A^c \cap B^c \cap C^c\]

e assim por diante. Aplicada ao cálculo de probabilidade, temos:

\[ P((A \cup B)^c) = P(A^c \cap B^c) \]

\[ P(A \cup B) = 1 - P(A^c \cap B^c) \]

\[ P(A \cup B \cup C) = 1 - P(A^c \cap B^c \cap C^c) \]

3.1.0.1 Exemplo

$\mathcal{E}$: Em um determinado bairro residencial, 60% de todos os lares assinam o Netflix ($N$), 80% assinam o Disney+ ($D$) e 50% de todos os lares assinam os dois. Se um lar for selecionado aleatoriamente, qual será a probabilidade de ele assinar (1) ao menos um dos serviços de streaming e (2) exatamente um dos dois serviços de streaming?
$\Omega$: O espaço amostral é o conjunto de todos os lares do bairro, $\Omega = \{N^cD^c, ND^c, N^cD, ND\}$.

As probabilidades obtidas pelo enunciado são:

$P(N) = 0.60$
$P(D) = 0.80$
$P(N \cap D) = 0.50$

Perguntas

Qual será a probabilidade de ele assinar ao menos um dos serviços de streaming, $A$
Qual será a probabilidade de ele assinar exatamente um dos dois serviços de streaming, $B$?

Respostas

$P(A) = P(N \cup D) = P(N) + P(D) - P(N \cap D) = 0.60 + 0.80 - 0.50 = 0.90$
$P(B) = P(ND^c \cup N^cD)$, como os eventos $ND^c$ e $N^cD$ são mutuamente exclusivos, temos:

$P(B) = P(ND^c) + P(N^cD) = P(N \cap D^c) + P(N^c \cap D)$
- $P(N \cap D^c) = P(N) - P(N \cap D) = 0.60 - 0.50 = 0.10$
- $P(N^c \cap D) = P(D) - P(N \cap D) = 0.80 - 0.50 = 0.30$
- $P(B) = P(N \cap D^c) + P(N^c \cap D) = 0.10 + 0.30 = 0.40$

Figura 3.4: Diagrama de Venn para o exemplo de serviços de streaming

3.1.0.2 Exemplo

$\mathcal{E}$: Uma determinada fábrica opera em três turnos diferentes. No ano anterior, ocorreram 200 acidentes na fábrica. Alguns deles podem ser atribuídos em parte a condições de trabalho inseguras, enquanto os outros não estão relacionados a condições de trabalho. A tabela a seguir fornece as porcentagens de acidentes que se encaixam em cada categoria de turno de trabalho.
$\Omega$: O espaço amostral é o conjunto de todos os acidentes ocorridos na fábrica.

Tabela 3.1: Tabela de probabilidades por turno e tipo de condição

Turno	Condições Inseguras	Não relacionado às condições
Dia	10%	35%
Alternado	8%	20%
Noite	5%	22%

Suponha que um dos 200 relatórios de acidente seja selecionado aleatoriamente de um arquivo de relatórios e sejam determinados o tipo de acidente e o turno.

Perguntas

Quais são os eventos simples?
Qual é a probabilidade de que o acidente selecionado seja atribuído a condições inseguras?
Qual é a probabilidade de que o acidente selecionado não tenha ocorrido no turno do dia?

Respostas

Sejam $S_1, S_2$ e $S_3$ os turnos: dia, alternado e noite, respectivamente.

Sejam $C_1$ e $C_2$ as condições inseguras e não relacionadas às condições, respectivamente.

Os eventos simples, ou os 6 possíveis resultados, são {$S_1C_1$}, {$S_1C_2$}, {$S_2C_1$}, {$S_2C_2$}, {$S_3C_1$}, {$S_3C_2$}, pela notação considere $S_iC_j$ como a intersecção dos eventos, $S_i \cap C_j$, exemplo $S_1C_1 = S_1 \cap C_1$.
$P({C_1})= P({S_1C_1} \cup {S_2C_1} \cup {S_3C_1})= 0.10 + 0.08 + 0.05 = 0.23$
$P({S_1}^c) = 1 - P({S_1C_1} \cup {S_1C_2}) = 1 – ( 0.10 + 0.35) = 0.55$

3.1.0.3 Exemplo

$\mathcal{E}$: Considere o tipo de secadora de roupas (a gás ou elétricas) comprada por cinco clientes diferentes em uma loja.

Perguntas

Se a probabilidade de no máximo um desses clientes fazer uma compra de uma secadora elétrica for $0.428$, qual será a probabilidade de ao menos dois clientes comprarem uma secadora elétrica?
Se $P$(os cinco comprarem a gás) $= 0.116$ e $P$(os cinco comprarem elétricas) $= 0.005$, qual será a probabilidade de haver uma compra de ao menos uma de cada tipo?

Respostas

Assumindo que as compras dos clientes são eventos independentes, gás $G$ e elétrica $E$.

$\Omega = \{GGGGG, GGGGE, GGGEG, ..., EEEEE\}$

Seja $A$ o evento de que no máximo um cliente faça uma compra de uma secadora elétrica. Então $A^c$ é o evento de que pelo menos dois clientes comprem uma secadora elétrica.
- $P(A^c) = 1 - P(A) = 1 - 0.428 = 0.572$
Seja $B = \{GGGGG\}$ o evento de que os cinco comprem a gás. Seja $C = \{EEEEE\}$ o evento de que os cinco comprem elétricas. Todos os outros resultados possíveis são aqueles em que pelo menos um de cada tipo é comprado. Assim, a probabilidade desejada é:
- $P$(uma compra de ao menos uma de cada tipo) $= 1 - P(B) - P(C) = 1 - 0.116 - 0.005 = 0.879$

3.2 Probabilidade Condicional

Para entender melhor essa regra do cálculo de probabilidade, imagine o cenário em que o evento $B$ já ocorreu, e neste cenário você gostaria de calcular a probabilidade de $A$ ocorrer. Para isso, você precisa “re-escalar” o espaço amostral para o evento $B$, ou seja, considerar que o evento $B$ é o novo espaço amostral. Assim, a probabilidade de $A$ ocorrer, dado que $B$ ocorreu, é a probabilidade de $A \cap B$ ocorrer, re-escalada no universo de $B$.

Probabilidade Condicional

A probabilidade condicional é a probabilidade de um evento ocorrer, dado que um outro evento já ocorreu. A probabilidade condicional de um evento $A$ dado um evento $B$ é definida como: \[ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{se } P(B) > 0 \]

Lê-se probabilidade condicional de $A$ dado $B$.

3.2.0.1 Exemplo

Suponha que,de todos os indivíduos que compram um determinado celular, 60% incluem um cartão de memória opcional na compra, 40% incluem uma capa protetora extra e 30% incluem um cartão e uma capa protetora. Considere a seleção aleatória de um comprador e sejam A {compra de cartão de memória} e B {compra de capa protetora}. Dessa forma, $P(A)=0.60$, $P(B) = 0.40$ e $P$(compra de ambos) $= P(A \cap B) = 0.30$. Dado que o indivíduo selecionado comprou uma capa, a probabilidade de compra de um cartão opcional é

\[P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.30}{0.40} = 0.75\]

Isto é, de todos os que compraram uma capa, 75% compraram um cartão de memória extra. De forma análoga,

\[P(\text{capa}|\text{cartão de memória}) = P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{0.30}{0.60} = 0.50\]

Observe que $P(A|B) \neq P(A)$ e $P(B|A) \neq P(B)$

3.3 Regra da Multiplicação

A regra da multiplicação é uma consequência direta da definição de probabilidade condicional. Ela é usada para calcular a probabilidade da intersecção de dois eventos, ou seja, a probabilidade de que ambos os eventos ocorram (simultaneamente). É probabilidade conjunta de eventos, de uma evento e outro evento ocorrer.

Regra da Multiplicação

A probabilidade da intersecção de dois eventos $A$ e $B$ é dada por:

\[ P(A \cap B) = P(A) \cdot P(B|A) \]

Pode ser ler como a probabilidade de $A$ ocorrer e $B$ ocorrer, dado que $A$ já ocorreu.

Por simetria, podemos escrever a regra da multiplicação de uma outra forma, como mostrado abaixo.

\[ P(A \cap B) = P(B) \cdot P(A|B) \]

A regra da multiplicação pode ser estendida para mais de dois eventos. Por exemplo, para três eventos $A$, $B$ e $C$, a regra da multiplicação é dada por:

\[ P(A \cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A \cap B) \]

Por simetria, podemos escrever a regra da multiplicação de outras formas, como mostrado abaixo.

\[ P(A \cap B \cap C) = P(A) \cdot P(C|A) \cdot P(B|A \cap C) \]

\[ P(A \cap B \cap C) = P(B) \cdot P(A|B) \cdot P(C|A \cap B) \]

\[ P(A \cap B \cap C) = P(B) \cdot P(C|B) \cdot P(A|B \cap C) \]

\[ P(A \cap B \cap C) = P(C) \cdot P(A|C) \cdot P(B|A \cap C) \]

\[ P(A \cap B \cap C) = P(C) \cdot P(B|C) \cdot P(A|B \cap C) \]

3.3.1 Eventos Dependentes e Independentes

Existem uma relação entre os eventos, essa relação pode ser classificada como a dependência ou independência entre os eventos.

Se houver uma dependência entre os eventos, então a probabilidade de um evento ocorrer é afetada pela probabilidade do outro evento ocorrer, é onde a regra da probabilidade condicional é utilizada.

Se houver independência entre os eventos, então a probabilidade de um evento ocorrer não é afetada pela probabilidade do outro evento ocorrer, ou seja, dado que um evento ocorreu, a probabilidade do outro evento ocorrer não se altera. Logo a probabilidade condicional é igual a probabilidade simples, ou seja, por exemplo, $P(A|B) = P(A)$ e $P(B|A) = P(B)$.

Eventos Independentes

Se dois eventos são independentes, implica que a probabilidade de um não se altera com a ocorrência do outro, logo a probabilidade da intersecção (ou conjunta) de dois eventos, $A$ e $B$, é dada por: \[ P(A \cap B) = P(A)P(B) \]

Se e somente se, $A$ e $B$ forem independentes.

Equivalentemente: $P(A|B) = P(A)$ e $P(B|A) = P(B)$.

Para três eventos independentes $A$, $B$ e $C$, a probabilidade da intersecção (ou conjunta) de três eventos é dada por: \[ P(A \cap B \cap C) = P(A)P(B)P(C) \]

E assim por diante para $n$ eventos independentes.

3.4 Regra da Probabilidade Total

Imagine que você gerencia a linha de montagem de um componente eletrônico crítico, alimentada por três fornecedores diferentes: $A_1$, $A_2$ e $A_3$. Cada fornecedor entrega uma fração diferente do inventário total e possui uma taxa de defeito inerente distinta.

Se um componente é retirado aleatoriamente da esteira final de produção, qual é a probabilidade global de que ele seja defeituoso ($B$)?

Como a produção mistura peças de várias origens, não podemos simplesmente usar a taxa de um único fornecedor. Precisamos particionar o problema em partes mais gerenciáveis e combiná-las formalmente.

A Regra da Probabilidade Total lida com isso particionando o espaço amostral em cenários exaustivos e mutuamente exclusivos. Se os eventos $A_1, A_2, \dots, A_n$ formam uma partição do espaço amostral $\Omega$ (isto é, $\bigcup A_i = \Omega$ e $A_i \cap A_j = \emptyset$ para $i \neq j$), a probabilidade de um evento $B$ pode ser expressa como a soma das probabilidades de $B$ ocorrer em intersecção com cada $A_i$:

\[ P(B) = \sum_{i=1}^{n} P(B \cap A_i) \]

Utilizando a regra da multiplicação vista anteriormente ($P(B A_i) = P(A_i) P(B | A_i) $), reescrevemos a probabilidade total de $B$ como:

\[ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) \]

De forma prática, a probabilidade global de um efeito $P(B)$ é a média das probabilidades condicionais daquele efeito diante de cada cenário $P(B | A_i)$, ponderadas pela chance de cada cenário acontecer, $P(A_i)$.

Podemos ilustrar a regra particionando o espaço amostral de um diagrama de Venn.

Código

\usetikzlibrary{shapes.geometric, arrows, backgrounds}
\begin{tikzpicture}
  % Draw the sample space
  \draw[thick] (0,0) rectangle (8,5) node[below left] {$\Omega$};
  % Draw partitions
  \draw[thick] (2.5, 0) -- (2.5, 5);
  \draw[thick] (5.5, 0) -- (5.5, 5);
  
  \node[font=\Large\bfseries] at (1.25, 4.5) {$A_1$};
  \node[font=\Large\bfseries] at (4, 4.5) {$A_2$};
  \node[font=\Large\bfseries] at (6.75, 4.5) {$A_3$};
  
  % Draw event B
  \draw[thick, fill=blue, fill opacity=0.3] (4,2.5) ellipse (3.5cm and 1.5cm);
  
  % Nodes for intersections
  \node at (1.5, 2.5) {$B \cap A_1$};
  \node at (4, 2.5) {$B \cap A_2$};
  \node at (6.5, 2.5) {$B \cap A_3$};
\end{tikzpicture}

Figura 3.6: Diagrama ilustrando a Regra da Probabilidade Total. O evento $B$ é a união de suas fatias ($B \cap A_i$) sobre o espaço particionado.

3.5 Teorema de Bayes

Enquanto a Probabilidade Total calcula a chance matemática do efeito $B$ ocorrer, o Teorema de Bayes é utilizado reversamente como ferramenta de diagnóstico de causa.

Retornando ao exemplo logístico: constatou-se que um componente na saída está defeituoso. Qual a confiança de que ele tenha vindo do fornecedor $A_1$?

O que procuramos é $P(A_1 | B)$, revertendo a condicional que costumamos ter catalogada como métrica de qualidade ($P(B | A_1)$).

O Teorema de Bayes expressa essa lógica de reversão analiticamente:

\[ P(A_i | B) = \frac{P(A_i \cap B)}{P(B)} = \frac{P(B | A_i) P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} \]

O numerador representa a intersecção do fato com um cenário causal, ao passo que o denominador normaliza todas as vias por intermédio da Propabilidade Total do evento.

Tudo que envolva processos em estágios, como Causa $\to$ Efeito, é também melhor organizado usando um diagrama de árvore de probabilidades.

Código

\usetikzlibrary{trees,matrix,calc}
\begin{tikzpicture}[
    grow=right,
    level 1/.style={sibling distance=3cm, level distance=3.5cm},
    level 2/.style={sibling distance=1.5cm, level distance=3.5cm},
    every node/.style={fill=white, inner sep=2pt}
  ]
  \node[inner sep=0pt] (root) {}
    child {node (A3) {$A_3$}
      child {node (A3Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_3)$}}
      child {node (A3B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_3)$}}
      edge from parent node[below] {$P(A_3)$}
    }
    child {node (A2) {$A_2$}
      child {node (A2Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_2)$}}
      child {node (A2B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_2)$}}
      edge from parent node[above, near start] {$P(A_2)$}
    }
    child {node (A1) {$A_1$}
      child {node (A1Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_1)$}}
      child {node (A1B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_1)$}}
      edge from parent node[above] {$P(A_1)$}
    };

  \matrix [matrix of math nodes,
           nodes in empty cells,
           row sep={1.5cm,between origins},
           column sep=5mm,
           anchor=mat-2-1.west
           ]
  (mat) at ($(A1B.east)+(1,0)$) 
  {
    \omega       & P(\omega)        & B       \\
    \{A_1\cap \boldsymbol{B}\}   & P(A_1)P(B|A_1)   & \bullet \\
    \{A_1\cap B^c\} & P(A_1)P(B^c|A_1) &         \\
    \{A_2\cap \boldsymbol{B}\}   & P(A_2)P(B|A_2)   & \bullet \\
    \{A_2\cap B^c\} & P(A_2)P(B^c|A_2) &         \\
    \{A_3\cap \boldsymbol{B}\}   & P(A_3)P(B|A_3)   & \bullet \\
    \{A_3\cap B^c\} & P(A_3)P(B^c|A_3) &         \\
                 &                  &  P(B)    \\
  };

  % Horizontal lines for the table
  \foreach \x/\y in {1/2, 2/3, 3/4, 4/5, 5/6, 6/7, 7/8}
    {\draw [-] ($(mat-\x-1.west -| mat-2-1.west)!0.5!(mat-\y-1.west)$) --
      ($(mat-\x-3.east -| mat-1-3.east)!0.5!(mat-\y-3.east -| mat-1-3.east)$);}

  % Indicate summation by double rule
  \draw [double, shorten >=-1mm, shorten <=-1mm]
    ($(mat-7-2.west)!0.5!(mat-8-2.west)$) --
    ($(mat-7-2.east)!0.5!(mat-8-2.east)$);

\end{tikzpicture}

Figura 3.7: Árvore de probabilidades dos caminhos de causa de $A$ em direção aos efeitos $B$ e manifestação global.

Teorema de Bayes

O Teorema de Bayes expressa uma probabilidade condicional, e para ser obtida é necessário conhecer a probabilidade condicional do evento inverso e as probabilidades marginais dos eventos. Para calcular a probabilidade de $B$ faz se o uso da regra da probabilidade total. \[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]

Relembrando: Regra da probabilidade total \[ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) \]

3.5.0.1 Exemplo

Vamos estruturar um caso prático na área de qualidade.

Problema: Uma fábrica tem 3 máquinas ($M_1, M_2, M_3$) produzindo uma mesma peça mecânica nas proporções de carga de $30\%, 20\%, \text{ e } 50\%$. As taxas de defeito históricas de cada máquina são rigidamente calculadas em $2\%, 4\%, \text{ e } 1\%$.

Se a expedição escolhe aleatoriamente uma peça recém acabada, qual a sua predição teórica da peça possuir um defeito ($D$)?
Recebido o laudo de Defeito daquela peça, calcule o grau de suspeita de ter sido processada primariamente na Máquina 1.

Solução:

O texto define as origens produtivas como partições exaustivas:

$P(M_1) = 0.30, P(M_2) = 0.20, P(M_3) = 0.50$

E as taxas de falha (condicionais):

$P(D|M_1) = 0.02, P(D|M_2) = 0.04, P(D|M_3) = 0.01$

Aplicando (1) Regra da Probabilidade Total: \[ P(D) = P(D|M_1)P(M_1) + P(D|M_2)P(M_2) + P(D|M_3)P(M_3) \] \[ P(D) = (0.02 \times 0.30) + (0.04 \times 0.20) + (0.01 \times 0.50) = 0.006 + 0.008 + 0.005 = 0.019 \] Encontramos uma probabilidade teórica de 1.9% da fábrica produzir uma peça com defeito.

Aplicando (2) Teorema de Bayes usando o total acima para descobrir $P(M_1|D)$: \[ P(M_1|D) = \frac{P(D|M_1)P(M_1)}{P(D)} = \frac{0.006}{0.019} \approx 0.31578 \] Temos a inferência que existe $31.58\%$ de credibilidade empírica à hipótese que a Máquina 1 seja o agente causador.

Verificação em R - Lei dos Grandes Números Aplicada

Código

# Simulação de confiabilidade fabril usando inferência estatística (Monte Carlo)
set.seed(42)
N <- 10^6

# 1. Simular o maquinário escolhido em linha com os pesos de produção fabril
maquinas <- sample(c("M1", "M2", "M3"), size = N, replace = TRUE, prob = c(0.3, 0.2, 0.5))

# 2. Inserir defeitos de acordo com a premissa individual e condicional computacional
defeitos <- numeric(N)
defeitos[maquinas == "M1"] <- rbinom(sum(maquinas == "M1"), 1, 0.02)
defeitos[maquinas == "M2"] <- rbinom(sum(maquinas == "M2"), 1, 0.04)
defeitos[maquinas == "M3"] <- rbinom(sum(maquinas == "M3"), 1, 0.01)

# Validação: Taxa de probabilidade Total - P(D)
prob_simulada_D <- sum(defeitos == 1) / N

# 3. Restringir observações APENAS ao subset classificado no defeito
amostra_defeituosa <- maquinas[defeitos == 1]

# Validação: Proporcionalidade reversa das causas ou Bayes - P(M1|D)
prob_simulada_M1_dado_D <- sum(amostra_defeituosa == "M1") / length(amostra_defeituosa)

cat(sprintf("   - Probabilidade Total  Analítica(1.9%%):  %.4f | Simulada: %.4f\n", 0.0190, prob_simulada_D))
cat(sprintf("   - Teorema de Bayes     Analítico(31.58%%): %.4f | Simulado: %.4f\n", 0.3158, prob_simulada_M1_dado_D))

   - Probabilidade Total  Analítica(1.9%):  0.0190 | Simulada: 0.0190
   - Teorema de Bayes     Analítico(31.58%): 0.3158 | Simulado: 0.3184

O resultado computacional nos auxilia a entender a derivação analítica. Simular $10^6$ rodadas de um equipamento auxilia na compreensão dessas fórmulas para avaliar as reais responsabilidades por quebras em qualquer malha de produção ou processamento contínuo.

Dica: Construa uma árvore de probabilidades para auxiliar na resolução de problemas de probabilidade condicional.

--- title: "Probabilidade" format: html --- ## Introdução Neste capítulo, abordaremos as definições de probabilidade e suas relações com o espaço amostral e os eventos. Os objetivos deste capítulo são: 1. Conhecer as interpretações de probabilidade. 2. Conhecer as regras para o cálculo de probabilidade e suas relações - [Regra da adição](#sec-regra-adicao) - [Probabilidade condicional](#sec-prob-condicional) - [Regra da multiplicação](#sec-regra-multiplicacao) - [Eventos dependentes e independentes](#sec-eventos-dependentes-independentes) - [Teorema de Bayes](#sec-teorema-bayes) ## Definições de Probabilidade <style> .container { display: flex; } .container div { background-color: #f1f1f1; margin: 1px; padding: 10px; } </style> <div class="container"> <div>![Pierre-Simon Laplace](../img/misc/laplace.jpg)</div> <div> A **definição classica** de probabilidade foi proposta por Pierre-Simon Laplace em 1812, no livro "*Théorie analytique des probabilités*". Laplace definiu a probabilidade de um evento como a razão entre o número de casos favoráveis ao evento e o número total de casos possíveis, desde que todos os casos sejam igualmente prováveis. A definição clássica de probabilidade foi questionada por diversos autores do século XIX e XX, pois ela pressupõe que o espaço amostral é finito e que todos os resultados são equiprováveis, o que nem sempre é verdade. Além disso, a definição clássica de probabilidade não é aplicável a experimentos aleatórios com um número infinito de resultados possíveis.</div> </div> <div class="container"> <div>![Richard von Mises](../img/misc/mises.jpeg)</div> <div>A **definição frequentista** de probabilidade foi proposta Richard von Mises em 1928, no livro "*Wahrscheinlichkeit, Statistik und Wahrheit*". Mises definiu a probabilidade de um evento como a razão entre o número de vezes que o evento ocorre e o número total de vezes que o experimento é repetido, desde que o número de repetições seja grande o suficiente. A definição frequentista de probabilidade foi questionada por diversos autores do século XX, pois ela pressupõe que o experimento pode ser repetido um número infinito de vezes, o que nem é possível na prática. A probabilidade frequentista define a probabilidade de um evento (a probabilidade a longo prazo ) como o limite da sua frequência relativa em infinitas tentativas.</div> </div> <div class="container"> <div>![Andrey Kolmogorov](../img/misc/kolmogorov.jpg)</div> <div>A **definição axiomática** de probabilidade foi proposta por Andrey Kolmogorov em 1933, no livro "[*Grundbegriffe der Wahrscheinlichkeitsrechnung*](https://archive.org/details/kolmogoroff-1933-grundbegriffe-der-wahrscheinlichkeitsrechnung/page/8/mode/2up)". Kolmogorov definiu a probabilidade de um evento como uma medida de probabilidade que satisfaz três axiomas: não-negatividade, normalidade e aditividade. Os axiomas da probabilidade não especificam nem pressupõem qualquer interpretação particular de probabilidade, mas podem ser motivados partindo de uma definição filosófica de probabilidade e argumentando que os axiomas são satisfeitos por essa definição</div> </div> A probabilidade de uma evento pode ser intepretada e definida de diferentes formas, de acordo com os seus autores: ::: {.callout-important icon="false"} ## Definição Clássica (Laplace) Quando o espaço amostral $\Omega$ é **finito** e todos os seus elementos são **estruturalmente equiprováveis**, por simetria ou por razão lógica, *antes de qualquer observação*, a probabilidade de um evento $A$ é: $$ P(A) = \frac{|A|}{|\Omega|} $$ Expressão por extenso: $$ \textrm{Probabilidade teórica do evento A} = \frac{\text{número de vezes que o evento A ocorre no espaço amostral} }{\text{número de elementos do espaço amostral}} $$ onde $|A|$ é o tamanho ou número de resultados favoráveis ao evento $A$ e $|\Omega|$ é o tamanho ou número de elementos no espaço amostral. Esta é chamada de **probabilidade a priori**: é determinada pela estrutura do experimento, não por dados coletados. --- **Premissas:** - Número finito de possíveis resultados - Hipótese de equiprobabilidade de resultados - **resultados igualmente prováveis** **Deficiências:** - Não faz sentido para espaço amostral infinito - Não é capaz de definir a probabilidade de eventos supostamente não equiprovavéis - **resultados não igualmente prováveis** ::: ::: {.callout-important icon="false"} ## Definição Frequentista (Von Mises) Baseada na observação empírica. Se um experimento é repetido $n$ vezes e o evento $A$ ocorre $n_A$ vezes, a probabilidade é o limite: $$ P(A) = \lim_{n\to\infty} \frac{n_A}{n} $$ Expressão por extenso: $$ \text{Probabilidade empírica do evento A} = \lim_{n\to\infty} \frac{\text{número de vezes que o evento A ocorreu} }{\text{número de repetições do experimento}} $$ --- **Premissas:** - Número “suficientemente” grande de repetições do experimento aleatório - Condições uniformes para realização do experimento - Ideal para **resultados não igualmente prováveis** **Deficiências:** - Definição de um número “suficientemente” grande - Não é capaz de definir a probabilidade de eventos que não podem ser repetidos ::: A outra interpretação de probabilidade é o do conceito subjetivo, porém esse não será tratado neste material. As interpretações de probabilidades não são suficientes para a formulação rigorosa da probabilidade como é o caso de outras disciplinas da matemática, dessa forma Kolmogorov apresentou um conjunto de **axiomas** para definir probabilidade. ::: {.callout-important icon="false"} ### Definição Axiomática (Kolmogorov) $$ P:\mathcal{A} \longrightarrow \mathbb{R} $$ A função de probabilidade toma um argumento $A$ e retorna um valor numérico. Uma medida de probabilidade matemática estrita satisfaz: 1. **Axioma 1 - Não-negatividade:** Para qualquer evento $A$, $P(A) \ge 0$ 2. **Axioma 2 - Normalidade:** $P(\Omega) = 1$ 3. **Axioma 3 - Aditividade:** Se $A_1,A_2,A_3,...$ é uma sequência infinita de eventos disjuntos (mutuamente exclusivos), então: $P(A_1 \cup A_2 \cup A_3 \cup \cdots)=\sum_{i=1}^{\infty}{P(A_i)}$ - Ou seja, para dois eventos mutuamente exclusivos, teríamos ($A \cap B = \emptyset$), $P(A \cup B) = P(A) + P(B)$. ::: A seguir temos as consequências dos axiomas de Kolmogorov. ::: {.todo title="Consequências dos Axiomas (Clique para expandir)" collapse="true"} * $P(\emptyset) = 0$ * $P(A^c) = 1 - P(A)$, onde $A^c$ é o evento complementar. * $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ * Limites da probabilidade: $0 \le P(A) \le 1$ * Monotonicidade: Se $A \subseteq B$, então $P(A) \le P(B)$ **Probabilidade do conjunto vazio**: $P(\emptyset) = 0$ **Demonstração:** Sabemos que $$ \Omega = \Omega \cup \emptyset $$ Como $\Omega$ e $\emptyset$ são disjuntos, pela aditividade: $$ P(\Omega) = P(\Omega) + P(\emptyset) $$ Subtraindo $P(\Omega)$ dos dois lados: $$ P(\emptyset) = 0 $$ **Regra do Complemento**: $P(A^c) = 1 - P(A)$ **Demonstração:** Observe que $$ \Omega = A \cup A^c $$ e que $A \cap A^c = \emptyset$. Logo, $$ P(\Omega) = P(A) + P(A^c) $$ Como $P(\Omega) = 1$: $$ P(A^c) = 1 - P(A) $$ **Limites da Probabilidade**: $0 \le P(A) \le 1$ **Demonstração:** Pelo axioma da não-negatividade, $P(A) \ge 0$. Além disso, como $$ \Omega = A \cup A^c $$ temos $$ 1 = P(A) + P(A^c) $$ Como $P(A^c) \ge 0$, segue que $$ P(A) \le 1 $$ **Monotonicidade**: Se $A \subseteq B$, então $$ P(A) \le P(B) $$ **Demonstração:** Se $A \subseteq B$, podemos escrever $$ B = A \cup (B \setminus A) $$ com união disjunta. Logo, $$ P(B) = P(A) + P(B \setminus A) $$ Como $P(B \setminus A) \ge 0$, segue que $$ P(B) \ge P(A) $$ **Fórmula da União de Dois Eventos**: $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ **Demonstração:** Podemos decompor $B$ como $$ B = (A \cap B) \cup (A^c \cap B) $$ com união disjunta. Assim, $$ P(B) = P(A \cap B) + P(A^c \cap B) $$ Agora escrevemos $$ A \cup B = A \cup (A^c \cap B) $$ Também é união disjunta, então $$ P(A \cup B) = P(A) + P(A^c \cap B) $$ Substituindo $$ P(A^c \cap B) = P(B) - P(A \cap B) $$ obtemos $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ **Subaditividade**: $P(A \cup B) \le P(A) + P(B)$ **Justificativa:** Da fórmula anterior, $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ Como $P(A \cap B) \ge 0$, concluímos que $$ P(A \cup B) \le P(A) + P(B) $$ **Comentário Final** Essas propriedades mostram que a probabilidade se comporta como uma medida de tamanho para conjuntos. A partir apenas desses três axiomas, toda a teoria da probabilidade é construída: probabilidade condicional, independência, Teorema de Bayes, variáveis aleatórias e resultados assintóticos. ::: ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Lançamento de uma moeda, uma única vez (sem especificar se é justa ou não). * $\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa. Os axiomas especificam que $P(\Omega) = 1$, de forma que, para completar a atribuição de probabilidade, falta apenas determinar $P(H)$ e $P(T)$. Já que $H$ e $T$ são os resultados do experimento, são também eventos simples e naturalmente mutuamente exclusivos, assim, $H \cup T = \Omega$, o Axioma 3 implica que $1 = P(\Omega) = P(H) + P(T)$. Essa expressão implica que $P(T) = 1 - P(H)$ ou $P(H) = 1 - P(T)$. A única liberdade permitida pelos axiomas nesses experimentos é a escolha de um valor para a probabilidade atribuída a um dos eventos simples, por exemplo $H$. Uma possível atribuição de probabilidades é $P(H) = 0.5$, $P(T) = 0.5$, enquanto outra atribuição possível é $P(H) = 0.75$, $P(T) = 0.25$, e assim por diante. De fato, representar $p$ por qualquer número fixo entre 0 e 1, assim: - $P(H) = p$ - $P(T) = 1 - p$ é uma atribuição consistente com os axiomas. ::: ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Considere um sistema de cinco componentes idênticos ligados em série, conforme ilustrado na @fig-exemplo-circuito1. Represente um componente que falha por F e o que não falha por S (de sucesso). Represente por $A$ o evento em que o sistema falha * $\Omega$: O espaço amostral é $\Omega = \{SSSSS, SSSSF, SSSFS, ... \}$. $S$ sucesso e $F$ falha. ```{mermaid} %%| label: fig-exemplo-circuito1 flowchart LR I[" "] L_I_A_0@--> A[" "] A L_A_B_0@--> B[" "] B L_B_C_0@--> C[" "] C L_C_D_0@--> D[" "] D L_D_E_0@--> E[" "] E L_E_F_0@--> F[" "] I@{ shape: f-circ} F@{ shape: f-circ} L_I_A_0@{ animation: slow } L_A_B_0@{ animation: slow } L_B_C_0@{ animation: slow } L_C_D_0@{ animation: slow } L_D_E_0@{ animation: slow } L_E_F_0@{ animation: slow } ``` Para que $A$ ocorra, ao menos um dos componentes individuais deve falhar. Os resultados de $A$ incluem $SSFSS$ (1, 2, 4 e 5 funcionam, mas 3 não), $FFSSS$ e assim por diante. Na verdade há 31 diferentes resultados em $A$. Entretanto, $A$, o evento em que o sistema funciona, consiste em um único resultado $SSSSS$. Na próxima seção veremos que se 90% de todos esses componentes não apresentarem falhas e se componentes diferentes apresentarem falhas independentemente um do outro, $P(A^c) = P(SSSSS) = 0.90^5 = 0.59$. Portanto, $P(A) = 1 – 0.59 = 0.41$. Dessa forma, em um grande número de tais sistemas, cerca de 41% apresentarão falhas. ::: Para o cálculo de probabilidades, devemos, com base no experimento aleatório, definir o espaço amostral e os eventos de interesse e a **lei de probabilidade**. - **Lei de equiprobabilidade**: quando todos os resultados (ou eventos simples) tem a mesma probabilidade de ocorrer. - **Lei de não equiprobabilidade**: quando os resultados (ou eventos simples) não tem a mesma probabilidade de ocorrer. ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Lançamento de uma moeda justa, uma única vez. * $\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa. * Eventos simples: $A = \{H\}$ e $B = \{T\}$. * Lei de **equiprobabilidade**: resultados igualmente prováveis. * Definição clássica de probabilidade: $$P(A) = \frac{|A|}{|\Omega|} = \frac{1}{2}$$ ![Exemplo de lançamento de moeda justa](../img/exemplo_moeda_justa.png){#fig-exemplo-moeda-justa} ::: ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Lançamento de uma moeda não justa, uma única vez. * $\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa. * Lei de **não equiprobabilidade**: resultados **não** igualmente prováveis. $P(H) = p, P(T) = 1 - p$ * Definição frequencista de probabilidade: $$P(A) = \lim_{n \to \infty} \frac{n(A)}{n}$$ ![Exemplo de lançamento de moeda viesada](../img/exemplo_moeda_viesada.png){#fig-exemplo-moeda-viesada} Para obtermos a probabilidade desse resultado devemos executar o experimento um grande número de vezes. Faremos então uma simulação para estimar essa probabilidade. ```{r} #| label: fig-convergencia-freq-moeda #| fig-cap: "Convergência da frequência relativa de caras (linha vermelha pontilhada = estimativa estabilizada de 60%). Com poucas amostras a frequência oscila; com N grande ela converge." #| echo: true #| warning: false #| message: false #| fig-width: 8 #| fig-height: 4 library(ggplot2) set.seed(42) # Imagine que a "verdadeira" frequencia de H é 0.60 p_H <- 0.60 # Simular N lançamentos individuais N_max <- 2000 resultados <- rbinom(N_max, size = 1, prob = p_H) freq_rel <- cumsum(resultados) / seq_along(resultados) df_conv <- data.frame(n = 1:N_max, freq = freq_rel) ggplot(df_conv, aes(x = n, y = freq)) + geom_line(color = "#2c7bb6", linewidth = 0.8) + geom_hline(yintercept = p_H, linetype = "dashed", color = "#d7191c", linewidth = 1) + annotate("text", x = 100, y = p_H + 0.05, label = sprintf("P(H) ≈ %.2f", p_H), color = "#d7191c", size = 4) + labs( x = "Número de lançamentos (N)", y = "Frequência relativa de caras", title = "Convergência Empírica: Lei dos Grandes Números", subtitle = "Lançamento de uma moeda viesada" ) + scale_y_continuous(labels = scales::percent_format(accuracy = 1), limits = c(0, 1)) + theme_minimal(base_size = 12) + theme( plot.title = element_text(face = "bold"), panel.grid.minor = element_blank() ) ``` **Lei dos Grandes Números**: informa que quanto mais observações são coletadas, a proporção de ocorrência de um resultado particular converge na probabilidade daquele resultado. ::: # Regras para o cálculo de probabilidades Agora veremos as regras para o cálculo de probabilidades. Elas auxiliam no cálculo de probabilidades de eventos mais complexos. ## Regra da adição {#sec-regra-adicao} A regra da adição é utilizada para calcular a probabilidade da união de dois ou mais eventos. No caso de dois eventos ela se refere a probabilidade de $A$ **ou** $B$ **ou** ambos ocorrerem. Se os eventos forem mutuamente exclusivos, a regra da adição é simplificada para: $$ P(A \cup B) = P(A) + P(B) $$ ![União de dois eventos mutuamente exclusivos](../img/uniao_dois_eventos_me.png){#fig-uniao-dois-eventos-me} Se os eventos não forem mutuamente exclusivos, a regra da adição é: $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ ![União de dois eventos não mutuamente exclusivos](../img/uniao_dois_eventos.png){#fig-uniao-dois-eventos} Para três eventos: $$ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) $$ ![União de três eventos não mutuamente exclusivos](../img/uniao_tres_eventos.png){#fig-uniao-tres-eventos} A união pode se dar sobre um conjunto finito ou infinito de eventos, segundo o Axioma 3 de Kolmogorov. ::: {.callout-important icon="false"} ## Regra da adição De maneira simplificada, a regra da adição: Para dois eventos: $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ Para três eventos: $$ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) $$ Onde, para $n$ eventos, o cálculo da probabilidade da união é bastante demandante. ::: Uma lei muito útil para o cálculo de probabilidades da união de múltiplos eventos é a lei de DeMorgan`s, que diz o seguinte: ::: {.callout-note icon="false"} ## Lei de DeMorgan`s A lei explicita que é possível calcular a união de múltiplos eventos calculando a intersecção dos eventos complementares. $$(A \cup B)^c = A^c \cap B^c$$ $$(A \cup B \cup C)^c = A^c \cap B^c \cap C^c$$ e assim por diante. Aplicada ao cálculo de probabilidade, temos: $$ P((A \cup B)^c) = P(A^c \cap B^c) $$ --- $$ P(A \cup B) = 1 - P(A^c \cap B^c) $$ --- $$ P(A \cup B \cup C) = 1 - P(A^c \cap B^c \cap C^c) $$ ::: ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Em um determinado bairro residencial, 60% de todos os lares assinam o Netflix ($N$), 80% assinam o Disney+ ($D$) e 50% de todos os lares assinam os dois. Se um lar for selecionado aleatoriamente, qual será a probabilidade de ele assinar (1) ao menos um dos serviços de streaming e (2) exatamente um dos dois serviços de streaming? * $\Omega$: O espaço amostral é o conjunto de todos os lares do bairro, $\Omega = \{N^cD^c, ND^c, N^cD, ND\}$. As probabilidades obtidas pelo enunciado são: * $P(N) = 0.60$ * $P(D) = 0.80$ * $P(N \cap D) = 0.50$ **Perguntas** 1. Qual será a probabilidade de ele assinar ao menos um dos serviços de streaming, $A$ 2. Qual será a probabilidade de ele assinar exatamente um dos dois serviços de streaming, $B$? **Respostas** 1. $P(A) = P(N \cup D) = P(N) + P(D) - P(N \cap D) = 0.60 + 0.80 - 0.50 = 0.90$ 2. $P(B) = P(ND^c \cup N^cD)$, como os eventos $ND^c$ e $N^cD$ são mutuamente exclusivos, temos: - $P(B) = P(ND^c) + P(N^cD) = P(N \cap D^c) + P(N^c \cap D)$ - $P(N \cap D^c) = P(N) - P(N \cap D) = 0.60 - 0.50 = 0.10$ - $P(N^c \cap D) = P(D) - P(N \cap D) = 0.80 - 0.50 = 0.30$ - $P(B) = P(N \cap D^c) + P(N^c \cap D) = 0.10 + 0.30 = 0.40$ ![Diagrama de Venn para o exemplo de serviços de streaming](../img/exemplo_streaming.png){width="50%" #fig-exemplo-streaming} ::: ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Uma determinada fábrica opera em três turnos diferentes. No ano anterior, ocorreram 200 acidentes na fábrica. Alguns deles podem ser atribuídos em parte a condições de trabalho inseguras, enquanto os outros não estão relacionados a condições de trabalho. A tabela a seguir fornece as porcentagens de acidentes que se encaixam em cada categoria de turno de trabalho. * $\Omega$: O espaço amostral é o conjunto de todos os acidentes ocorridos na fábrica. +---------------+---------------------+------------------------------+ | **Turno** | **Condições | **Não relacionado | | | Inseguras** | às condições** | +===============+=====================+==============================+ | *Dia* | 10% | 35% | +---------------+---------------------+------------------------------+ | *Alternado* | 8% | 20% | +---------------+---------------------+------------------------------+ | *Noite* | 5% | 22% | +---------------+---------------------+------------------------------+ : Tabela de probabilidades por turno e tipo de condição {#tbl-turnos-condicoes} Suponha que um dos 200 relatórios de acidente seja selecionado aleatoriamente de um arquivo de relatórios e sejam determinados o tipo de acidente e o turno. **Perguntas** a. Quais são os eventos simples? b. Qual é a probabilidade de que o acidente selecionado seja atribuído a condições inseguras? c. Qual é a probabilidade de que o acidente selecionado não tenha ocorrido no turno do dia? **Respostas** Sejam $S_1, S_2$ e $S_3$ os turnos: *dia*, *alternado* e *noite*, respectivamente. Sejam $C_1$ e $C_2$ as *condições inseguras* e *não relacionadas às condições*, respectivamente. a. Os eventos simples, ou os 6 possíveis resultados, são {$S_1C_1$}, {$S_1C_2$}, {$S_2C_1$}, {$S_2C_2$}, {$S_3C_1$}, {$S_3C_2$}, pela notação considere $S_iC_j$ como a intersecção dos eventos, $S_i \cap C_j$, exemplo $S_1C_1 = S_1 \cap C_1$. b. $P({C_1})= P({S_1C_1} \cup {S_2C_1} \cup {S_3C_1})= 0.10 + 0.08 + 0.05 = 0.23$ c. $P({S_1}^c) = 1 - P({S_1C_1} \cup {S_1C_2}) = 1 – ( 0.10 + 0.35) = 0.55$ ::: ::: {.exemplo icon="false"} #### Exemplo * $\mathcal{E}$: Considere o tipo de secadora de roupas (a gás ou elétricas) comprada por cinco clientes diferentes em uma loja. **Perguntas** a. Se a probabilidade de no máximo um desses clientes fazer uma compra de uma secadora elétrica for $0.428$, qual será a probabilidade de ao menos dois clientes comprarem uma secadora elétrica? b. Se $P$(os cinco comprarem a gás) $= 0.116$ e $P$(os cinco comprarem elétricas) $= 0.005$, qual será a probabilidade de haver uma compra de ao menos uma de cada tipo? **Respostas** Assumindo que as compras dos clientes são eventos independentes, gás $G$ e elétrica $E$. * $\Omega = \{GGGGG, GGGGE, GGGEG, ..., EEEEE\}$ a. Seja $A$ o evento de que no máximo um cliente faça uma compra de uma secadora elétrica. Então $A^c$ é o evento de que pelo menos dois clientes comprem uma secadora elétrica. - $P(A^c) = 1 - P(A) = 1 - 0.428 = 0.572$ b. Seja $B = \{GGGGG\}$ o evento de que os cinco comprem a gás. Seja $C = \{EEEEE\}$ o evento de que os cinco comprem elétricas. Todos os outros resultados possíveis são aqueles em que pelo menos um de cada tipo é comprado. Assim, a probabilidade desejada é: - $P$(uma compra de ao menos uma de cada tipo) $= 1 - P(B) - P(C) = 1 - 0.116 - 0.005 = 0.879$ ::: ## Probabilidade Condicional {#sec-prob-condicional} Para entender melhor essa regra do cálculo de probabilidade, imagine o cenário em que o evento $B$ já ocorreu, e neste cenário você gostaria de calcular a probabilidade de $A$ ocorrer. Para isso, você precisa "re-escalar" o espaço amostral para o evento $B$, ou seja, considerar que o evento $B$ é o novo espaço amostral. Assim, a probabilidade de $A$ ocorrer, **dado que** $B$ ocorreu, é a probabilidade de $A \cap B$ ocorrer, re-escalada no universo de $B$. ::: {#fig-prob-condicional layout-ncol=2} ![Espaço amostral e seus eventos](../img/venn_prob_condicional_1.png){#fig-probabilidade-condicional} ![Probabilidade condicional de $A$, re-escalada em $B$](../img/venn_prob_condicional_2.png){#fig-probabilidade-condicional-reescala width=50%} Probabilidade Condicional ::: ::: {.callout-important icon="false"} ## Probabilidade Condicional A probabilidade condicional é a probabilidade de um evento ocorrer, **dado que** um outro evento já ocorreu. A probabilidade condicional de um evento $A$ dado um evento $B$ é definida como: $$ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{se } P(B) > 0 $$ Lê-se probabilidade condicional de $A$ dado $B$. ::: ::: {.exemplo icon="false"} #### Exemplo * Suponha que,de todos os indivíduos que compram um determinado celular, 60% incluem um cartão de memória opcional na compra, 40% incluem uma capa protetora extra e 30% incluem um cartão e uma capa protetora. Considere a seleção aleatória de um comprador e sejam A {compra de cartão de memória} e B {compra de capa protetora}. Dessa forma, $P(A)=0.60$, $P(B) = 0.40$ e $P$(compra de ambos) $= P(A \cap B) = 0.30$. Dado que o indivíduo selecionado comprou uma capa, a probabilidade de compra de um cartão opcional é $$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.30}{0.40} = 0.75$$ Isto é, de todos os que compraram uma capa, 75% compraram um cartão de memória extra. De forma análoga, $$P(\text{capa}|\text{cartão de memória}) = P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{0.30}{0.60} = 0.50$$ Observe que $P(A|B) \neq P(A)$ e $P(B|A) \neq P(B)$ ::: ## Regra da Multiplicação {#sec-regra-multiplicacao} A regra da multiplicação é uma consequência direta da definição de probabilidade condicional. Ela é usada para calcular a probabilidade da intersecção de dois eventos, ou seja, a probabilidade de que ambos os eventos ocorram (simultaneamente). É probabilidade conjunta de eventos, de uma evento **e** outro evento ocorrer. ::: {.callout-important icon="false"} ## Regra da Multiplicação A probabilidade da intersecção de dois eventos $A$ e $B$ é dada por: $$ P(A \cap B) = P(A) \cdot P(B|A) $$ Pode ser ler como a probabilidade de $A$ ocorrer **e** $B$ ocorrer, dado que $A$ já ocorreu. Por simetria, podemos escrever a regra da multiplicação de uma outra forma, como mostrado abaixo. $$ P(A \cap B) = P(B) \cdot P(A|B) $$ --- A regra da multiplicação pode ser estendida para mais de dois eventos. Por exemplo, para três eventos $A$, $B$ e $C$, a regra da multiplicação é dada por: $$ P(A \cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A \cap B) $$ Por simetria, podemos escrever a regra da multiplicação de outras formas, como mostrado abaixo. $$ P(A \cap B \cap C) = P(A) \cdot P(C|A) \cdot P(B|A \cap C) $$ $$ P(A \cap B \cap C) = P(B) \cdot P(A|B) \cdot P(C|A \cap B) $$ $$ P(A \cap B \cap C) = P(B) \cdot P(C|B) \cdot P(A|B \cap C) $$ $$ P(A \cap B \cap C) = P(C) \cdot P(A|C) \cdot P(B|A \cap C) $$ $$ P(A \cap B \cap C) = P(C) \cdot P(B|C) \cdot P(A|B \cap C) $$ ::: ### Eventos Dependentes e Independentes {#sec-eventos-dependentes-independentes} Existem uma relação entre os eventos, essa relação pode ser classificada como a dependência ou independência entre os eventos. Se houver uma **dependência entre os eventos**, então a probabilidade de um evento ocorrer é afetada pela probabilidade do outro evento ocorrer, é onde a regra da **probabilidade condicional** é utilizada. Se houver **independência** entre os eventos, então a probabilidade de um evento ocorrer não é afetada pela probabilidade do outro evento ocorrer, ou seja, dado que um evento ocorreu, a probabilidade do outro evento ocorrer não se altera. Logo a probabilidade condicional é igual a probabilidade simples, ou seja, por exemplo, $P(A|B) = P(A)$ e $P(B|A) = P(B)$. ::: {.callout-note icon="false"} ## Eventos Independentes Se dois eventos são **independentes**, implica que a probabilidade de um não se altera com a ocorrência do outro, logo a probabilidade da intersecção (ou conjunta) de dois eventos, $A$ e $B$, é dada por: $$ P(A \cap B) = P(A)P(B) $$ Se e somente se, $A$ e $B$ forem independentes. Equivalentemente: $P(A|B) = P(A)$ e $P(B|A) = P(B)$. --- Para três eventos independentes $A$, $B$ e $C$, a probabilidade da intersecção (ou conjunta) de três eventos é dada por: $$ P(A \cap B \cap C) = P(A)P(B)P(C) $$ E assim por diante para $n$ eventos independentes. ::: ## Regra da Probabilidade Total {#sec-regra-probabilidade-total} Imagine que você gerencia a linha de montagem de um componente eletrônico crítico, alimentada por três fornecedores diferentes: $A_1$, $A_2$ e $A_3$. Cada fornecedor entrega uma fração diferente do inventário total e possui uma taxa de defeito inerente distinta. Se um componente é retirado aleatoriamente da esteira final de produção, qual é a probabilidade global de que ele seja defeituoso ($B$)? Como a produção mistura peças de várias origens, não podemos simplesmente usar a taxa de um único fornecedor. Precisamos particionar o problema em partes mais gerenciáveis e combiná-las formalmente. A **Regra da Probabilidade Total** lida com isso particionando o espaço amostral em cenários exaustivos e mutuamente exclusivos. Se os eventos $A_1, A_2, \dots, A_n$ formam uma partição do espaço amostral $\Omega$ (isto é, $\bigcup A_i = \Omega$ e $A_i \cap A_j = \emptyset$ para $i \neq j$), a probabilidade de um evento $B$ pode ser expressa como a soma das probabilidades de $B$ ocorrer em intersecção com cada $A_i$: $$ P(B) = \sum_{i=1}^{n} P(B \cap A_i) $$ Utilizando a regra da multiplicação vista anteriormente ($P(B \cap A_i) = P(A_i) \cdot P(B | A_i) $), reescrevemos a probabilidade total de $B$ como: $$ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) $$ De forma prática, a probabilidade global de um efeito $P(B)$ é a média das probabilidades condicionais daquele efeito diante de cada cenário $P(B | A_i)$, ponderadas pela chance de cada cenário acontecer, $P(A_i)$. Podemos ilustrar a regra particionando o espaço amostral de um diagrama de Venn. ```{tikz} %| label: fig-prob-total-venn %| fig-cap: 'Diagrama ilustrando a Regra da Probabilidade Total. O evento $B$ é a união de suas fatias ($B \cap A_i$) sobre o espaço particionado.' %| fig-ext: png %| out-width: '60%' %| fig-align: center \usetikzlibrary{shapes.geometric, arrows, backgrounds} \begin{tikzpicture} % Draw the sample space \draw[thick] (0,0) rectangle (8,5) node[below left] {$\Omega$}; % Draw partitions \draw[thick] (2.5, 0) -- (2.5, 5); \draw[thick] (5.5, 0) -- (5.5, 5); \node[font=\Large\bfseries] at (1.25, 4.5) {$A_1$}; \node[font=\Large\bfseries] at (4, 4.5) {$A_2$}; \node[font=\Large\bfseries] at (6.75, 4.5) {$A_3$}; % Draw event B \draw[thick, fill=blue, fill opacity=0.3] (4,2.5) ellipse (3.5cm and 1.5cm); % Nodes for intersections \node at (1.5, 2.5) {$B \cap A_1$}; \node at (4, 2.5) {$B \cap A_2$}; \node at (6.5, 2.5) {$B \cap A_3$}; \end{tikzpicture} ``` ## Teorema de Bayes {#sec-teorema-bayes} Enquanto a Probabilidade Total calcula a chance matemática do efeito $B$ ocorrer, o **Teorema de Bayes** é utilizado reversamente como ferramenta de **diagnóstico de causa**. Retornando ao exemplo logístico: constatou-se que um componente na saída está defeituoso. Qual a confiança de que ele tenha vindo do fornecedor $A_1$? O que procuramos é $P(A_1 | B)$, revertendo a condicional que costumamos ter catalogada como métrica de qualidade ($P(B | A_1)$). O Teorema de Bayes expressa essa lógica de reversão analiticamente: $$ P(A_i | B) = \frac{P(A_i \cap B)}{P(B)} = \frac{P(B | A_i) P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} $$ O numerador representa a intersecção do fato com um cenário causal, ao passo que o denominador normaliza todas as vias por intermédio da Propabilidade Total do evento. Tudo que envolva processos em estágios, como Causa $\to$ Efeito, é também melhor organizado usando um diagrama de árvore de probabilidades. ```{tikz} %| label: fig-bayes-tree %| fig-cap: 'Árvore de probabilidades dos caminhos de causa de $A$ em direção aos efeitos $B$ e manifestação global.' %| fig-ext: png %| out-width: '80%' %| fig-align: center \usetikzlibrary{trees,matrix,calc} \begin{tikzpicture}[ grow=right, level 1/.style={sibling distance=3cm, level distance=3.5cm}, level 2/.style={sibling distance=1.5cm, level distance=3.5cm}, every node/.style={fill=white, inner sep=2pt} ] \node[inner sep=0pt] (root) {} child {node (A3) {$A_3$} child {node (A3Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_3)$}} child {node (A3B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_3)$}} edge from parent node[below] {$P(A_3)$} } child {node (A2) {$A_2$} child {node (A2Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_2)$}} child {node (A2B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_2)$}} edge from parent node[above, near start] {$P(A_2)$} } child {node (A1) {$A_1$} child {node (A1Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_1)$}} child {node (A1B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_1)$}} edge from parent node[above] {$P(A_1)$} }; \matrix [matrix of math nodes, nodes in empty cells, row sep={1.5cm,between origins}, column sep=5mm, anchor=mat-2-1.west ] (mat) at ($(A1B.east)+(1,0)$) { \omega & P(\omega) & B \\ \{A_1\cap \boldsymbol{B}\} & P(A_1)P(B|A_1) & \bullet \\ \{A_1\cap B^c\} & P(A_1)P(B^c|A_1) & \\ \{A_2\cap \boldsymbol{B}\} & P(A_2)P(B|A_2) & \bullet \\ \{A_2\cap B^c\} & P(A_2)P(B^c|A_2) & \\ \{A_3\cap \boldsymbol{B}\} & P(A_3)P(B|A_3) & \bullet \\ \{A_3\cap B^c\} & P(A_3)P(B^c|A_3) & \\ & & P(B) \\ }; % Horizontal lines for the table \foreach \x/\y in {1/2, 2/3, 3/4, 4/5, 5/6, 6/7, 7/8} {\draw [-] ($(mat-\x-1.west -| mat-2-1.west)!0.5!(mat-\y-1.west)$) -- ($(mat-\x-3.east -| mat-1-3.east)!0.5!(mat-\y-3.east -| mat-1-3.east)$);} % Indicate summation by double rule \draw [double, shorten >=-1mm, shorten <=-1mm] ($(mat-7-2.west)!0.5!(mat-8-2.west)$) -- ($(mat-7-2.east)!0.5!(mat-8-2.east)$); \end{tikzpicture} ``` ::: {.callout-important icon="false"} ## Teorema de Bayes O Teorema de Bayes expressa uma probabilidade condicional, e para ser obtida é necessário conhecer a probabilidade condicional do evento inverso e as probabilidades marginais dos eventos. Para calcular a probabilidade de $B$ faz se o uso da regra da probabilidade total. $$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$ --- **Relembrando: Regra da probabilidade total** $$ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) $$ ::: ::: {.exemplo icon="false"} #### Exemplo Vamos estruturar um caso prático na área de qualidade. **Problema:** Uma fábrica tem 3 máquinas ($M_1, M_2, M_3$) produzindo uma mesma peça mecânica nas proporções de carga de $30\%, 20\%, \text{ e } 50\%$. As taxas de defeito históricas de cada máquina são rigidamente calculadas em $2\%, 4\%, \text{ e } 1\%$. 1. Se a expedição escolhe aleatoriamente uma peça recém acabada, qual a sua predição teórica da peça possuir um defeito ($D$)? 2. Recebido o laudo de **Defeito** daquela peça, calcule o grau de suspeita de ter sido processada primariamente na Máquina 1. **Solução:** O texto define as origens produtivas como partições exaustivas: * $P(M_1) = 0.30, P(M_2) = 0.20, P(M_3) = 0.50$ E as taxas de falha (condicionais): * $P(D|M_1) = 0.02, P(D|M_2) = 0.04, P(D|M_3) = 0.01$ Aplicando (1) **Regra da Probabilidade Total**: $$ P(D) = P(D|M_1)P(M_1) + P(D|M_2)P(M_2) + P(D|M_3)P(M_3) $$ $$ P(D) = (0.02 \times 0.30) + (0.04 \times 0.20) + (0.01 \times 0.50) = 0.006 + 0.008 + 0.005 = 0.019 $$ Encontramos uma probabilidade teórica de 1.9% da fábrica produzir uma peça com defeito. Aplicando (2) **Teorema de Bayes** usando o total acima para descobrir $P(M_1|D)$: $$ P(M_1|D) = \frac{P(D|M_1)P(M_1)}{P(D)} = \frac{0.006}{0.019} \approx 0.31578 $$ Temos a inferência que existe $31.58\%$ de credibilidade empírica à hipótese que a Máquina 1 seja o agente causador. ::: {.callout-note appearance="simple"} ## Verificação em R - Lei dos Grandes Números Aplicada ```{r} #| echo: true #| results: hold # Simulação de confiabilidade fabril usando inferência estatística (Monte Carlo) set.seed(42) N <- 10^6 # 1. Simular o maquinário escolhido em linha com os pesos de produção fabril maquinas <- sample(c("M1", "M2", "M3"), size = N, replace = TRUE, prob = c(0.3, 0.2, 0.5)) # 2. Inserir defeitos de acordo com a premissa individual e condicional computacional defeitos <- numeric(N) defeitos[maquinas == "M1"] <- rbinom(sum(maquinas == "M1"), 1, 0.02) defeitos[maquinas == "M2"] <- rbinom(sum(maquinas == "M2"), 1, 0.04) defeitos[maquinas == "M3"] <- rbinom(sum(maquinas == "M3"), 1, 0.01) # Validação: Taxa de probabilidade Total - P(D) prob_simulada_D <- sum(defeitos == 1) / N # 3. Restringir observações APENAS ao subset classificado no defeito amostra_defeituosa <- maquinas[defeitos == 1] # Validação: Proporcionalidade reversa das causas ou Bayes - P(M1|D) prob_simulada_M1_dado_D <- sum(amostra_defeituosa == "M1") / length(amostra_defeituosa) cat(sprintf(" - Probabilidade Total Analítica(1.9%%): %.4f | Simulada: %.4f\n", 0.0190, prob_simulada_D)) cat(sprintf(" - Teorema de Bayes Analítico(31.58%%): %.4f | Simulado: %.4f\n", 0.3158, prob_simulada_M1_dado_D)) ``` ::: O resultado computacional nos auxilia a entender a derivação analítica. Simular $10^6$ rodadas de um equipamento auxilia na compreensão dessas fórmulas para avaliar as reais responsabilidades por quebras em qualquer malha de produção ou processamento contínuo. **Dica**: Construa uma árvore de probabilidades para auxiliar na resolução de problemas de probabilidade condicional. :::