---
title: "Probabilidade"
format: html
---
## Introdução
Neste capítulo, abordaremos as definições de probabilidade e suas relações com o espaço amostral e os eventos. Os objetivos deste capítulo são:
1. Conhecer as interpretações de probabilidade.
2. Conhecer as regras para o cálculo de probabilidade e suas relações
- [Regra da adição](#sec-regra-adicao)
- [Probabilidade condicional](#sec-prob-condicional)
- [Regra da multiplicação](#sec-regra-multiplicacao)
- [Eventos dependentes e independentes](#sec-eventos-dependentes-independentes)
- [Teorema de Bayes](#sec-teorema-bayes)
## Definições de Probabilidade
<style>
.container {
display: flex;
}
.container div {
background-color: #f1f1f1;
margin: 1px;
padding: 10px;
}
</style>
<div class="container">
<div></div>
<div> A **definição classica** de probabilidade foi proposta por Pierre-Simon Laplace em 1812, no livro "*Théorie analytique des probabilités*". Laplace definiu a probabilidade de um evento como a razão entre o número de casos favoráveis ao evento e o número total de casos possíveis, desde que todos os casos sejam igualmente prováveis. A definição clássica de probabilidade foi questionada por diversos autores do século XIX e XX, pois ela pressupõe que o espaço amostral é finito e que todos os resultados são equiprováveis, o que nem sempre é verdade. Além disso, a definição clássica de probabilidade não é aplicável a experimentos aleatórios com um número infinito de resultados possíveis.</div>
</div>
<div class="container">
<div></div>
<div>A **definição frequentista** de probabilidade foi proposta Richard von Mises em 1928, no livro "*Wahrscheinlichkeit, Statistik und Wahrheit*". Mises definiu a probabilidade de um evento como a razão entre o número de vezes que o evento ocorre e o número total de vezes que o experimento é repetido, desde que o número de repetições seja grande o suficiente. A definição frequentista de probabilidade foi questionada por diversos autores do século XX, pois ela pressupõe que o experimento pode ser repetido um número infinito de vezes, o que nem é possível na prática. A probabilidade frequentista define a probabilidade de um evento (a probabilidade a longo prazo ) como o limite da sua frequência relativa em infinitas tentativas.</div>
</div>
<div class="container">
<div></div>
<div>A **definição axiomática** de probabilidade foi proposta por Andrey Kolmogorov em 1933, no livro "[*Grundbegriffe der Wahrscheinlichkeitsrechnung*](https://archive.org/details/kolmogoroff-1933-grundbegriffe-der-wahrscheinlichkeitsrechnung/page/8/mode/2up)". Kolmogorov definiu a probabilidade de um evento como uma medida de probabilidade que satisfaz três axiomas: não-negatividade, normalidade e aditividade. Os axiomas da probabilidade não especificam nem pressupõem qualquer interpretação particular de probabilidade, mas podem ser motivados partindo de uma definição filosófica de probabilidade e argumentando que os axiomas são satisfeitos por essa definição</div>
</div>
A probabilidade de uma evento pode ser intepretada e definida de diferentes formas, de acordo com os seus autores:
::: {.callout-important icon="false"}
## Definição Clássica (Laplace)
Quando o espaço amostral $\Omega$ é **finito** e todos os seus elementos são **estruturalmente equiprováveis**, por simetria ou por razão lógica, *antes de qualquer observação*, a probabilidade de um evento $A$ é:
$$
P(A) = \frac{|A|}{|\Omega|}
$$
Expressão por extenso:
$$
\textrm{Probabilidade teórica do evento A} = \frac{\text{número de vezes que o evento A ocorre no espaço amostral} }{\text{número de elementos do espaço amostral}}
$$
onde $|A|$ é o tamanho ou número de resultados favoráveis ao evento $A$ e $|\Omega|$ é o tamanho ou número de elementos no espaço amostral.
Esta é chamada de **probabilidade a priori**: é determinada pela estrutura do experimento, não por dados coletados.
---
**Premissas:**
- Número finito de possíveis resultados
- Hipótese de equiprobabilidade de resultados - **resultados igualmente prováveis**
**Deficiências:**
- Não faz sentido para espaço amostral infinito
- Não é capaz de definir a probabilidade de eventos supostamente não equiprovavéis - **resultados não igualmente prováveis**
:::
::: {.callout-important icon="false"}
## Definição Frequentista (Von Mises)
Baseada na observação empírica. Se um experimento é repetido $n$ vezes e o evento $A$ ocorre $n_A$ vezes, a probabilidade é o limite:
$$
P(A) = \lim_{n\to\infty} \frac{n_A}{n}
$$
Expressão por extenso:
$$
\text{Probabilidade empírica do evento A} = \lim_{n\to\infty} \frac{\text{número de vezes que o evento A ocorreu} }{\text{número de repetições do experimento}}
$$
---
**Premissas:**
- Número “suficientemente” grande de repetições do experimento aleatório
- Condições uniformes para realização do experimento
- Ideal para **resultados não igualmente prováveis**
**Deficiências:**
- Definição de um número “suficientemente” grande
- Não é capaz de definir a probabilidade de eventos que não podem ser repetidos
:::
A outra interpretação de probabilidade é o do conceito subjetivo, porém esse não será tratado neste material.
As interpretações de probabilidades não são suficientes para a formulação rigorosa da probabilidade como é o caso de outras disciplinas da matemática, dessa forma Kolmogorov apresentou um conjunto de **axiomas** para definir probabilidade.
::: {.callout-important icon="false"}
### Definição Axiomática (Kolmogorov)
$$
P:\mathcal{A} \longrightarrow \mathbb{R}
$$
A função de probabilidade toma um argumento $A$ e retorna um valor numérico.
Uma medida de probabilidade matemática estrita satisfaz:
1. **Axioma 1 - Não-negatividade:** Para qualquer evento $A$, $P(A) \ge 0$
2. **Axioma 2 - Normalidade:** $P(\Omega) = 1$
3. **Axioma 3 - Aditividade:** Se $A_1,A_2,A_3,...$ é uma sequência infinita de eventos disjuntos (mutuamente exclusivos), então: $P(A_1 \cup A_2 \cup A_3 \cup \cdots)=\sum_{i=1}^{\infty}{P(A_i)}$
- Ou seja, para dois eventos mutuamente exclusivos, teríamos ($A \cap B = \emptyset$), $P(A \cup B) = P(A) + P(B)$.
:::
A seguir temos as consequências dos axiomas de Kolmogorov.
::: {.todo title="Consequências dos Axiomas (Clique para expandir)" collapse="true"}
* $P(\emptyset) = 0$
* $P(A^c) = 1 - P(A)$, onde $A^c$ é o evento complementar.
* $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
* Limites da probabilidade: $0 \le P(A) \le 1$
* Monotonicidade: Se $A \subseteq B$, então $P(A) \le P(B)$
**Probabilidade do conjunto vazio**: $P(\emptyset) = 0$
**Demonstração:**
Sabemos que
$$
\Omega = \Omega \cup \emptyset
$$
Como $\Omega$ e $\emptyset$ são disjuntos, pela aditividade:
$$
P(\Omega) = P(\Omega) + P(\emptyset)
$$
Subtraindo $P(\Omega)$ dos dois lados:
$$
P(\emptyset) = 0
$$
**Regra do Complemento**: $P(A^c) = 1 - P(A)$
**Demonstração:**
Observe que
$$
\Omega = A \cup A^c
$$
e que $A \cap A^c = \emptyset$.
Logo,
$$
P(\Omega) = P(A) + P(A^c)
$$
Como $P(\Omega) = 1$:
$$
P(A^c) = 1 - P(A)
$$
**Limites da Probabilidade**: $0 \le P(A) \le 1$
**Demonstração:**
Pelo axioma da não-negatividade, $P(A) \ge 0$.
Além disso, como
$$
\Omega = A \cup A^c
$$
temos
$$
1 = P(A) + P(A^c)
$$
Como $P(A^c) \ge 0$, segue que
$$
P(A) \le 1
$$
**Monotonicidade**: Se $A \subseteq B$, então
$$
P(A) \le P(B)
$$
**Demonstração:**
Se $A \subseteq B$, podemos escrever
$$
B = A \cup (B \setminus A)
$$
com união disjunta.
Logo,
$$
P(B) = P(A) + P(B \setminus A)
$$
Como $P(B \setminus A) \ge 0$, segue que
$$
P(B) \ge P(A)
$$
**Fórmula da União de Dois Eventos**: $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
**Demonstração:**
Podemos decompor $B$ como
$$
B = (A \cap B) \cup (A^c \cap B)
$$
com união disjunta. Assim,
$$
P(B) = P(A \cap B) + P(A^c \cap B)
$$
Agora escrevemos
$$
A \cup B = A \cup (A^c \cap B)
$$
Também é união disjunta, então
$$
P(A \cup B) = P(A) + P(A^c \cap B)
$$
Substituindo
$$
P(A^c \cap B) = P(B) - P(A \cap B)
$$
obtemos
$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$
**Subaditividade**: $P(A \cup B) \le P(A) + P(B)$
**Justificativa:**
Da fórmula anterior,
$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$
Como $P(A \cap B) \ge 0$, concluímos que
$$
P(A \cup B) \le P(A) + P(B)
$$
**Comentário Final**
Essas propriedades mostram que a probabilidade se comporta como uma medida de tamanho para conjuntos.
A partir apenas desses três axiomas, toda a teoria da probabilidade é construída: probabilidade condicional, independência, Teorema de Bayes, variáveis aleatórias e resultados assintóticos.
:::
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Lançamento de uma moeda, uma única vez (sem especificar se é justa ou não).
* $\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa.
Os axiomas especificam que $P(\Omega) = 1$, de forma que, para completar a atribuição de probabilidade, falta apenas determinar $P(H)$ e $P(T)$.
Já que $H$ e $T$ são os resultados do experimento, são também eventos simples e naturalmente mutuamente exclusivos, assim, $H \cup T = \Omega$, o Axioma 3 implica que $1 = P(\Omega) = P(H) + P(T)$.
Essa expressão implica que $P(T) = 1 - P(H)$ ou $P(H) = 1 - P(T)$.
A única liberdade permitida pelos axiomas nesses experimentos é a escolha de um valor para a probabilidade atribuída a um dos eventos simples, por exemplo $H$.
Uma possível atribuição de probabilidades é $P(H) = 0.5$, $P(T) = 0.5$, enquanto outra atribuição possível é $P(H) = 0.75$, $P(T) = 0.25$, e assim por diante.
De fato, representar $p$ por qualquer número fixo entre 0 e 1, assim:
- $P(H) = p$
- $P(T) = 1 - p$
é uma atribuição consistente com os axiomas.
:::
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Considere um sistema de cinco componentes idênticos ligados em série, conforme ilustrado na @fig-exemplo-circuito1. Represente um componente que falha por F e o que não falha por S (de sucesso). Represente por $A$ o evento em que o sistema falha
* $\Omega$: O espaço amostral é $\Omega = \{SSSSS, SSSSF, SSSFS, ... \}$. $S$ sucesso e $F$ falha.
```{mermaid}
%%| label: fig-exemplo-circuito1
flowchart LR
I[" "] L_I_A_0@--> A[" "]
A L_A_B_0@--> B[" "]
B L_B_C_0@--> C[" "]
C L_C_D_0@--> D[" "]
D L_D_E_0@--> E[" "]
E L_E_F_0@--> F[" "]
I@{ shape: f-circ}
F@{ shape: f-circ}
L_I_A_0@{ animation: slow }
L_A_B_0@{ animation: slow }
L_B_C_0@{ animation: slow }
L_C_D_0@{ animation: slow }
L_D_E_0@{ animation: slow }
L_E_F_0@{ animation: slow }
```
Para que $A$ ocorra, ao menos um dos componentes individuais deve falhar. Os resultados
de $A$ incluem $SSFSS$ (1, 2, 4 e 5 funcionam, mas 3 não), $FFSSS$ e assim por diante. Na verdade há 31 diferentes resultados em $A$. Entretanto, $A$, o evento em que o sistema funciona, consiste em um único resultado $SSSSS$.
Na próxima seção veremos que se 90% de todos esses componentes não apresentarem falhas e se componentes diferentes apresentarem falhas independentemente um do outro, $P(A^c) = P(SSSSS) = 0.90^5 = 0.59$. Portanto, $P(A) = 1 – 0.59 = 0.41$. Dessa forma, em um grande número de tais sistemas, cerca de 41% apresentarão falhas.
:::
Para o cálculo de probabilidades, devemos, com base no experimento aleatório, definir o espaço amostral e os eventos de interesse e a **lei de probabilidade**.
- **Lei de equiprobabilidade**: quando todos os resultados (ou eventos simples) tem a mesma probabilidade de ocorrer.
- **Lei de não equiprobabilidade**: quando os resultados (ou eventos simples) não tem a mesma probabilidade de ocorrer.
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Lançamento de uma moeda justa, uma única vez.
* $\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa.
* Eventos simples: $A = \{H\}$ e $B = \{T\}$.
* Lei de **equiprobabilidade**: resultados igualmente prováveis.
* Definição clássica de probabilidade:
$$P(A) = \frac{|A|}{|\Omega|} = \frac{1}{2}$$
{#fig-exemplo-moeda-justa}
:::
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Lançamento de uma moeda não justa, uma única vez.
* $\Omega$: O espaço amostral é $\Omega = \{H, T\}$. $H$ cara e $T$ coroa.
* Lei de **não equiprobabilidade**: resultados **não** igualmente prováveis. $P(H) = p, P(T) = 1 - p$
* Definição frequencista de probabilidade:
$$P(A) = \lim_{n \to \infty} \frac{n(A)}{n}$$
{#fig-exemplo-moeda-viesada}
Para obtermos a probabilidade desse resultado devemos executar o experimento um grande número de vezes. Faremos então uma simulação para estimar essa probabilidade.
```{r}
#| label: fig-convergencia-freq-moeda
#| fig-cap: "Convergência da frequência relativa de caras (linha vermelha pontilhada = estimativa estabilizada de 60%). Com poucas amostras a frequência oscila; com N grande ela converge."
#| echo: true
#| warning: false
#| message: false
#| fig-width: 8
#| fig-height: 4
library(ggplot2)
set.seed(42)
# Imagine que a "verdadeira" frequencia de H é 0.60
p_H <- 0.60
# Simular N lançamentos individuais
N_max <- 2000
resultados <- rbinom(N_max, size = 1, prob = p_H)
freq_rel <- cumsum(resultados) / seq_along(resultados)
df_conv <- data.frame(n = 1:N_max, freq = freq_rel)
ggplot(df_conv, aes(x = n, y = freq)) +
geom_line(color = "#2c7bb6", linewidth = 0.8) +
geom_hline(yintercept = p_H, linetype = "dashed",
color = "#d7191c", linewidth = 1) +
annotate("text", x = 100, y = p_H + 0.05,
label = sprintf("P(H) ≈ %.2f", p_H),
color = "#d7191c", size = 4) +
labs(
x = "Número de lançamentos (N)",
y = "Frequência relativa de caras",
title = "Convergência Empírica: Lei dos Grandes Números",
subtitle = "Lançamento de uma moeda viesada"
) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1),
limits = c(0, 1)) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold"),
panel.grid.minor = element_blank() )
```
**Lei dos Grandes Números**: informa que quanto mais observações são coletadas, a proporção de ocorrência de um resultado particular converge na probabilidade daquele resultado.
:::
# Regras para o cálculo de probabilidades
Agora veremos as regras para o cálculo de probabilidades. Elas auxiliam no cálculo de probabilidades de eventos mais complexos.
## Regra da adição {#sec-regra-adicao}
A regra da adição é utilizada para calcular a probabilidade da união de dois ou mais eventos. No caso de dois eventos ela se refere a probabilidade de $A$ **ou** $B$ **ou** ambos ocorrerem.
Se os eventos forem mutuamente exclusivos, a regra da adição é simplificada para:
$$ P(A \cup B) = P(A) + P(B) $$
{#fig-uniao-dois-eventos-me}
Se os eventos não forem mutuamente exclusivos, a regra da adição é:
$$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$
{#fig-uniao-dois-eventos}
Para três eventos:
$$ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) $$
{#fig-uniao-tres-eventos}
A união pode se dar sobre um conjunto finito ou infinito de eventos, segundo o Axioma 3 de Kolmogorov.
::: {.callout-important icon="false"}
## Regra da adição
De maneira simplificada, a regra da adição:
Para dois eventos:
$$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$
Para três eventos:
$$ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) $$
Onde, para $n$ eventos, o cálculo da probabilidade da união é bastante demandante.
:::
Uma lei muito útil para o cálculo de probabilidades da união de múltiplos eventos é a lei de DeMorgan`s, que diz o seguinte:
::: {.callout-note icon="false"}
## Lei de DeMorgan`s
A lei explicita que é possível calcular a união de múltiplos eventos calculando a intersecção dos eventos complementares.
$$(A \cup B)^c = A^c \cap B^c$$
$$(A \cup B \cup C)^c = A^c \cap B^c \cap C^c$$
e assim por diante. Aplicada ao cálculo de probabilidade, temos:
$$ P((A \cup B)^c) = P(A^c \cap B^c) $$
---
$$ P(A \cup B) = 1 - P(A^c \cap B^c) $$
---
$$ P(A \cup B \cup C) = 1 - P(A^c \cap B^c \cap C^c) $$
:::
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Em um determinado bairro residencial, 60% de todos os lares assinam o Netflix ($N$), 80% assinam o Disney+ ($D$) e 50% de todos os lares assinam os dois. Se um lar for selecionado
aleatoriamente, qual será a probabilidade de ele assinar (1) ao menos um dos serviços de streaming e (2) exatamente um dos dois serviços de streaming?
* $\Omega$: O espaço amostral é o conjunto de todos os lares do bairro, $\Omega = \{N^cD^c, ND^c, N^cD, ND\}$.
As probabilidades obtidas pelo enunciado são:
* $P(N) = 0.60$
* $P(D) = 0.80$
* $P(N \cap D) = 0.50$
**Perguntas**
1. Qual será a probabilidade de ele assinar ao menos um dos serviços de streaming, $A$
2. Qual será a probabilidade de ele assinar exatamente um dos dois serviços de streaming, $B$?
**Respostas**
1. $P(A) = P(N \cup D) = P(N) + P(D) - P(N \cap D) = 0.60 + 0.80 - 0.50 = 0.90$
2. $P(B) = P(ND^c \cup N^cD)$, como os eventos $ND^c$ e $N^cD$ são mutuamente exclusivos, temos:
- $P(B) = P(ND^c) + P(N^cD) = P(N \cap D^c) + P(N^c \cap D)$
- $P(N \cap D^c) = P(N) - P(N \cap D) = 0.60 - 0.50 = 0.10$
- $P(N^c \cap D) = P(D) - P(N \cap D) = 0.80 - 0.50 = 0.30$
- $P(B) = P(N \cap D^c) + P(N^c \cap D) = 0.10 + 0.30 = 0.40$
{width="50%" #fig-exemplo-streaming}
:::
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Uma determinada fábrica opera em três turnos diferentes. No ano anterior, ocorreram 200 acidentes na fábrica. Alguns deles podem ser atribuídos em parte a condições de trabalho inseguras, enquanto os outros não estão relacionados a condições de trabalho. A tabela a seguir fornece as porcentagens de acidentes que se encaixam em cada categoria de turno de trabalho.
* $\Omega$: O espaço amostral é o conjunto de todos os acidentes ocorridos na fábrica.
+---------------+---------------------+------------------------------+
| **Turno** | **Condições | **Não relacionado |
| | Inseguras** | às condições** |
+===============+=====================+==============================+
| *Dia* | 10% | 35% |
+---------------+---------------------+------------------------------+
| *Alternado* | 8% | 20% |
+---------------+---------------------+------------------------------+
| *Noite* | 5% | 22% |
+---------------+---------------------+------------------------------+
: Tabela de probabilidades por turno e tipo de condição {#tbl-turnos-condicoes}
Suponha que um dos 200 relatórios de acidente seja selecionado aleatoriamente de um arquivo de relatórios e sejam determinados o tipo de acidente e o turno.
**Perguntas**
a. Quais são os eventos simples?
b. Qual é a probabilidade de que o acidente selecionado seja atribuído a condições inseguras?
c. Qual é a probabilidade de que o acidente selecionado não tenha ocorrido no turno do dia?
**Respostas**
Sejam $S_1, S_2$ e $S_3$ os turnos: *dia*, *alternado* e *noite*, respectivamente.
Sejam $C_1$ e $C_2$ as *condições inseguras* e *não relacionadas às condições*, respectivamente.
a. Os eventos simples, ou os 6 possíveis resultados, são {$S_1C_1$}, {$S_1C_2$}, {$S_2C_1$}, {$S_2C_2$}, {$S_3C_1$}, {$S_3C_2$}, pela notação considere $S_iC_j$ como a intersecção dos eventos, $S_i \cap C_j$, exemplo $S_1C_1 = S_1 \cap C_1$.
b. $P({C_1})= P({S_1C_1} \cup {S_2C_1} \cup {S_3C_1})= 0.10 + 0.08 + 0.05 = 0.23$
c. $P({S_1}^c) = 1 - P({S_1C_1} \cup {S_1C_2}) = 1 – ( 0.10 + 0.35) = 0.55$
:::
::: {.exemplo icon="false"}
#### Exemplo
* $\mathcal{E}$: Considere o tipo de secadora de roupas (a gás ou elétricas) comprada por cinco clientes diferentes em uma loja.
**Perguntas**
a. Se a probabilidade de no máximo um desses clientes fazer uma compra de uma secadora elétrica for $0.428$, qual será a probabilidade de ao menos dois clientes comprarem uma secadora elétrica?
b. Se $P$(os cinco comprarem a gás) $= 0.116$ e $P$(os cinco comprarem elétricas) $= 0.005$, qual será a probabilidade de haver uma compra de ao menos uma de cada tipo?
**Respostas**
Assumindo que as compras dos clientes são eventos independentes, gás $G$ e elétrica $E$.
* $\Omega = \{GGGGG, GGGGE, GGGEG, ..., EEEEE\}$
a. Seja $A$ o evento de que no máximo um cliente faça uma compra de uma secadora elétrica. Então $A^c$ é o evento de que pelo menos dois clientes comprem uma secadora elétrica.
- $P(A^c) = 1 - P(A) = 1 - 0.428 = 0.572$
b. Seja $B = \{GGGGG\}$ o evento de que os cinco comprem a gás. Seja $C = \{EEEEE\}$ o evento de que os cinco comprem elétricas. Todos os outros resultados possíveis são aqueles em que pelo menos um de cada tipo é comprado. Assim, a probabilidade desejada é:
- $P$(uma compra de ao menos uma de cada tipo) $= 1 - P(B) - P(C) = 1 - 0.116 - 0.005 = 0.879$
:::
## Probabilidade Condicional {#sec-prob-condicional}
Para entender melhor essa regra do cálculo de probabilidade, imagine o cenário em que o evento $B$ já ocorreu, e neste cenário você gostaria de calcular a probabilidade de $A$ ocorrer. Para isso, você precisa "re-escalar" o espaço amostral para o evento $B$, ou seja, considerar que o evento $B$ é o novo espaço amostral. Assim, a probabilidade de $A$ ocorrer, **dado que** $B$ ocorreu, é a probabilidade de $A \cap B$ ocorrer, re-escalada no universo de $B$.
::: {#fig-prob-condicional layout-ncol=2}
{#fig-probabilidade-condicional}
{#fig-probabilidade-condicional-reescala width=50%}
Probabilidade Condicional
:::
::: {.callout-important icon="false"}
## Probabilidade Condicional
A probabilidade condicional é a probabilidade de um evento ocorrer, **dado que** um outro evento já ocorreu.
A probabilidade condicional de um evento $A$ dado um evento $B$ é definida como:
$$ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{se } P(B) > 0 $$
Lê-se probabilidade condicional de $A$ dado $B$.
:::
::: {.exemplo icon="false"}
#### Exemplo
* Suponha que,de todos os indivíduos que compram um determinado celular, 60% incluem um cartão de memória opcional na compra, 40% incluem uma capa protetora extra e 30% incluem um cartão e uma capa protetora. Considere a seleção aleatória de um comprador e sejam A {compra de cartão de memória} e B {compra de capa protetora}. Dessa forma, $P(A)=0.60$, $P(B) = 0.40$ e $P$(compra de ambos) $= P(A \cap B) = 0.30$. Dado que o indivíduo selecionado comprou uma capa, a probabilidade de compra de um cartão opcional é
$$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.30}{0.40} = 0.75$$
Isto é, de todos os que compraram uma capa, 75% compraram um cartão de memória extra. De forma análoga,
$$P(\text{capa}|\text{cartão de memória}) = P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{0.30}{0.60} = 0.50$$
Observe que $P(A|B) \neq P(A)$ e $P(B|A) \neq P(B)$
:::
## Regra da Multiplicação {#sec-regra-multiplicacao}
A regra da multiplicação é uma consequência direta da definição de probabilidade condicional. Ela é usada para calcular a probabilidade da intersecção de dois eventos, ou seja, a probabilidade de que ambos os eventos ocorram (simultaneamente). É probabilidade conjunta de eventos, de uma evento **e** outro evento ocorrer.
::: {.callout-important icon="false"}
## Regra da Multiplicação
A probabilidade da intersecção de dois eventos $A$ e $B$ é dada por:
$$ P(A \cap B) = P(A) \cdot P(B|A) $$
Pode ser ler como a probabilidade de $A$ ocorrer **e** $B$ ocorrer, dado que $A$ já ocorreu.
Por simetria, podemos escrever a regra da multiplicação de uma outra forma, como mostrado abaixo.
$$ P(A \cap B) = P(B) \cdot P(A|B) $$
---
A regra da multiplicação pode ser estendida para mais de dois eventos. Por exemplo, para três eventos $A$, $B$ e $C$, a regra da multiplicação é dada por:
$$ P(A \cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A \cap B) $$
Por simetria, podemos escrever a regra da multiplicação de outras formas, como mostrado abaixo.
$$ P(A \cap B \cap C) = P(A) \cdot P(C|A) \cdot P(B|A \cap C) $$
$$ P(A \cap B \cap C) = P(B) \cdot P(A|B) \cdot P(C|A \cap B) $$
$$ P(A \cap B \cap C) = P(B) \cdot P(C|B) \cdot P(A|B \cap C) $$
$$ P(A \cap B \cap C) = P(C) \cdot P(A|C) \cdot P(B|A \cap C) $$
$$ P(A \cap B \cap C) = P(C) \cdot P(B|C) \cdot P(A|B \cap C) $$
:::
### Eventos Dependentes e Independentes {#sec-eventos-dependentes-independentes}
Existem uma relação entre os eventos, essa relação pode ser classificada como a dependência ou independência entre os eventos.
Se houver uma **dependência entre os eventos**, então a probabilidade de um evento ocorrer é afetada pela probabilidade do outro evento ocorrer, é onde a regra da **probabilidade condicional** é utilizada.
Se houver **independência** entre os eventos, então a probabilidade de um evento ocorrer não é afetada pela probabilidade do outro evento ocorrer, ou seja, dado que um evento ocorreu, a probabilidade do outro evento ocorrer não se altera. Logo a probabilidade condicional é igual a probabilidade simples, ou seja, por exemplo, $P(A|B) = P(A)$ e $P(B|A) = P(B)$.
::: {.callout-note icon="false"}
## Eventos Independentes
Se dois eventos são **independentes**, implica que a probabilidade de um não se altera com a ocorrência do outro, logo a probabilidade da intersecção (ou conjunta) de dois eventos, $A$ e $B$, é dada por:
$$ P(A \cap B) = P(A)P(B) $$
Se e somente se, $A$ e $B$ forem independentes.
Equivalentemente: $P(A|B) = P(A)$ e $P(B|A) = P(B)$.
---
Para três eventos independentes $A$, $B$ e $C$, a probabilidade da intersecção (ou conjunta) de três eventos é dada por:
$$ P(A \cap B \cap C) = P(A)P(B)P(C) $$
E assim por diante para $n$ eventos independentes.
:::
## Regra da Probabilidade Total {#sec-regra-probabilidade-total}
Imagine que você gerencia a linha de montagem de um componente eletrônico crítico, alimentada por três fornecedores diferentes: $A_1$, $A_2$ e $A_3$. Cada fornecedor entrega uma fração diferente do inventário total e possui uma taxa de defeito inerente distinta.
Se um componente é retirado aleatoriamente da esteira final de produção, qual é a probabilidade global de que ele seja defeituoso ($B$)?
Como a produção mistura peças de várias origens, não podemos simplesmente usar a taxa de um único fornecedor. Precisamos particionar o problema em partes mais gerenciáveis e combiná-las formalmente.
A **Regra da Probabilidade Total** lida com isso particionando o espaço amostral em cenários exaustivos e mutuamente exclusivos. Se os eventos $A_1, A_2, \dots, A_n$ formam uma partição do espaço amostral $\Omega$ (isto é, $\bigcup A_i = \Omega$ e $A_i \cap A_j = \emptyset$ para $i \neq j$), a probabilidade de um evento $B$ pode ser expressa como a soma das probabilidades de $B$ ocorrer em intersecção com cada $A_i$:
$$ P(B) = \sum_{i=1}^{n} P(B \cap A_i) $$
Utilizando a regra da multiplicação vista anteriormente ($P(B \cap A_i) = P(A_i) \cdot P(B | A_i) $), reescrevemos a probabilidade total de $B$ como:
$$ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) $$
De forma prática, a probabilidade global de um efeito $P(B)$ é a média das probabilidades condicionais daquele efeito diante de cada cenário $P(B | A_i)$, ponderadas pela chance de cada cenário acontecer, $P(A_i)$.
Podemos ilustrar a regra particionando o espaço amostral de um diagrama de Venn.
```{tikz}
%| label: fig-prob-total-venn
%| fig-cap: 'Diagrama ilustrando a Regra da Probabilidade Total. O evento $B$ é a união de suas fatias ($B \cap A_i$) sobre o espaço particionado.'
%| fig-ext: png
%| out-width: '60%'
%| fig-align: center
\usetikzlibrary{shapes.geometric, arrows, backgrounds}
\begin{tikzpicture}
% Draw the sample space
\draw[thick] (0,0) rectangle (8,5) node[below left] {$\Omega$};
% Draw partitions
\draw[thick] (2.5, 0) -- (2.5, 5);
\draw[thick] (5.5, 0) -- (5.5, 5);
\node[font=\Large\bfseries] at (1.25, 4.5) {$A_1$};
\node[font=\Large\bfseries] at (4, 4.5) {$A_2$};
\node[font=\Large\bfseries] at (6.75, 4.5) {$A_3$};
% Draw event B
\draw[thick, fill=blue, fill opacity=0.3] (4,2.5) ellipse (3.5cm and 1.5cm);
% Nodes for intersections
\node at (1.5, 2.5) {$B \cap A_1$};
\node at (4, 2.5) {$B \cap A_2$};
\node at (6.5, 2.5) {$B \cap A_3$};
\end{tikzpicture}
```
## Teorema de Bayes {#sec-teorema-bayes}
Enquanto a Probabilidade Total calcula a chance matemática do efeito $B$ ocorrer, o **Teorema de Bayes** é utilizado reversamente como ferramenta de **diagnóstico de causa**.
Retornando ao exemplo logístico: constatou-se que um componente na saída está defeituoso. Qual a confiança de que ele tenha vindo do fornecedor $A_1$?
O que procuramos é $P(A_1 | B)$, revertendo a condicional que costumamos ter catalogada como métrica de qualidade ($P(B | A_1)$).
O Teorema de Bayes expressa essa lógica de reversão analiticamente:
$$ P(A_i | B) = \frac{P(A_i \cap B)}{P(B)} = \frac{P(B | A_i) P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} $$
O numerador representa a intersecção do fato com um cenário causal, ao passo que o denominador normaliza todas as vias por intermédio da Propabilidade Total do evento.
Tudo que envolva processos em estágios, como Causa $\to$ Efeito, é também melhor organizado usando um diagrama de árvore de probabilidades.
```{tikz}
%| label: fig-bayes-tree
%| fig-cap: 'Árvore de probabilidades dos caminhos de causa de $A$ em direção aos efeitos $B$ e manifestação global.'
%| fig-ext: png
%| out-width: '80%'
%| fig-align: center
\usetikzlibrary{trees,matrix,calc}
\begin{tikzpicture}[
grow=right,
level 1/.style={sibling distance=3cm, level distance=3.5cm},
level 2/.style={sibling distance=1.5cm, level distance=3.5cm},
every node/.style={fill=white, inner sep=2pt}
]
\node[inner sep=0pt] (root) {}
child {node (A3) {$A_3$}
child {node (A3Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_3)$}}
child {node (A3B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_3)$}}
edge from parent node[below] {$P(A_3)$}
}
child {node (A2) {$A_2$}
child {node (A2Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_2)$}}
child {node (A2B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_2)$}}
edge from parent node[above, near start] {$P(A_2)$}
}
child {node (A1) {$A_1$}
child {node (A1Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_1)$}}
child {node (A1B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_1)$}}
edge from parent node[above] {$P(A_1)$}
};
\matrix [matrix of math nodes,
nodes in empty cells,
row sep={1.5cm,between origins},
column sep=5mm,
anchor=mat-2-1.west
]
(mat) at ($(A1B.east)+(1,0)$)
{
\omega & P(\omega) & B \\
\{A_1\cap \boldsymbol{B}\} & P(A_1)P(B|A_1) & \bullet \\
\{A_1\cap B^c\} & P(A_1)P(B^c|A_1) & \\
\{A_2\cap \boldsymbol{B}\} & P(A_2)P(B|A_2) & \bullet \\
\{A_2\cap B^c\} & P(A_2)P(B^c|A_2) & \\
\{A_3\cap \boldsymbol{B}\} & P(A_3)P(B|A_3) & \bullet \\
\{A_3\cap B^c\} & P(A_3)P(B^c|A_3) & \\
& & P(B) \\
};
% Horizontal lines for the table
\foreach \x/\y in {1/2, 2/3, 3/4, 4/5, 5/6, 6/7, 7/8}
{\draw [-] ($(mat-\x-1.west -| mat-2-1.west)!0.5!(mat-\y-1.west)$) --
($(mat-\x-3.east -| mat-1-3.east)!0.5!(mat-\y-3.east -| mat-1-3.east)$);}
% Indicate summation by double rule
\draw [double, shorten >=-1mm, shorten <=-1mm]
($(mat-7-2.west)!0.5!(mat-8-2.west)$) --
($(mat-7-2.east)!0.5!(mat-8-2.east)$);
\end{tikzpicture}
```
::: {.callout-important icon="false"}
## Teorema de Bayes
O Teorema de Bayes expressa uma probabilidade condicional, e para ser obtida é necessário conhecer a probabilidade condicional do evento inverso e as probabilidades marginais dos eventos. Para calcular a probabilidade de $B$ faz se o uso da regra da probabilidade total.
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$
---
**Relembrando: Regra da probabilidade total**
$$ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) $$
:::
::: {.exemplo icon="false"}
#### Exemplo
Vamos estruturar um caso prático na área de qualidade.
**Problema:**
Uma fábrica tem 3 máquinas ($M_1, M_2, M_3$) produzindo uma mesma peça mecânica nas proporções de carga de $30\%, 20\%, \text{ e } 50\%$. As taxas de defeito históricas de cada máquina são rigidamente calculadas em $2\%, 4\%, \text{ e } 1\%$.
1. Se a expedição escolhe aleatoriamente uma peça recém acabada, qual a sua predição teórica da peça possuir um defeito ($D$)?
2. Recebido o laudo de **Defeito** daquela peça, calcule o grau de suspeita de ter sido processada primariamente na Máquina 1.
**Solução:**
O texto define as origens produtivas como partições exaustivas:
* $P(M_1) = 0.30, P(M_2) = 0.20, P(M_3) = 0.50$
E as taxas de falha (condicionais):
* $P(D|M_1) = 0.02, P(D|M_2) = 0.04, P(D|M_3) = 0.01$
Aplicando (1) **Regra da Probabilidade Total**:
$$ P(D) = P(D|M_1)P(M_1) + P(D|M_2)P(M_2) + P(D|M_3)P(M_3) $$
$$ P(D) = (0.02 \times 0.30) + (0.04 \times 0.20) + (0.01 \times 0.50) = 0.006 + 0.008 + 0.005 = 0.019 $$
Encontramos uma probabilidade teórica de 1.9% da fábrica produzir uma peça com defeito.
Aplicando (2) **Teorema de Bayes** usando o total acima para descobrir $P(M_1|D)$:
$$ P(M_1|D) = \frac{P(D|M_1)P(M_1)}{P(D)} = \frac{0.006}{0.019} \approx 0.31578 $$
Temos a inferência que existe $31.58\%$ de credibilidade empírica à hipótese que a Máquina 1 seja o agente causador.
::: {.callout-note appearance="simple"}
## Verificação em R - Lei dos Grandes Números Aplicada
```{r}
#| echo: true
#| results: hold
# Simulação de confiabilidade fabril usando inferência estatística (Monte Carlo)
set.seed(42)
N <- 10^6
# 1. Simular o maquinário escolhido em linha com os pesos de produção fabril
maquinas <- sample(c("M1", "M2", "M3"), size = N, replace = TRUE, prob = c(0.3, 0.2, 0.5))
# 2. Inserir defeitos de acordo com a premissa individual e condicional computacional
defeitos <- numeric(N)
defeitos[maquinas == "M1"] <- rbinom(sum(maquinas == "M1"), 1, 0.02)
defeitos[maquinas == "M2"] <- rbinom(sum(maquinas == "M2"), 1, 0.04)
defeitos[maquinas == "M3"] <- rbinom(sum(maquinas == "M3"), 1, 0.01)
# Validação: Taxa de probabilidade Total - P(D)
prob_simulada_D <- sum(defeitos == 1) / N
# 3. Restringir observações APENAS ao subset classificado no defeito
amostra_defeituosa <- maquinas[defeitos == 1]
# Validação: Proporcionalidade reversa das causas ou Bayes - P(M1|D)
prob_simulada_M1_dado_D <- sum(amostra_defeituosa == "M1") / length(amostra_defeituosa)
cat(sprintf(" - Probabilidade Total Analítica(1.9%%): %.4f | Simulada: %.4f\n", 0.0190, prob_simulada_D))
cat(sprintf(" - Teorema de Bayes Analítico(31.58%%): %.4f | Simulado: %.4f\n", 0.3158, prob_simulada_M1_dado_D))
```
:::
O resultado computacional nos auxilia a entender a derivação analítica. Simular $10^6$ rodadas de um equipamento auxilia na compreensão dessas fórmulas para avaliar as reais responsabilidades por quebras em qualquer malha de produção ou processamento contínuo.
**Dica**: Construa uma árvore de probabilidades para auxiliar na resolução de problemas de probabilidade condicional.
:::