2.1 Introdução

Neste capítulo, abordaremos as definições de probabilidade e suas relações com o espaço amostral e os eventos. Os objetivos deste capítulo são:

  1. Conhecer as interpretações de probabilidade.
  2. Conhecer as regras para o cálculo de probabilidade e suas relações

2.2 Definições de Probabilidade

Pierre-Simon Laplace
A definição classica de probabilidade foi proposta por Pierre-Simon Laplace em 1812, no livro “Théorie analytique des probabilités”. Laplace definiu a probabilidade de um evento como a razão entre o número de casos favoráveis ao evento e o número total de casos possíveis, desde que todos os casos sejam igualmente prováveis. A definição clássica de probabilidade foi questionada por diversos autores do século XIX e XX, pois ela pressupõe que o espaço amostral é finito e que todos os resultados são equiprováveis, o que nem sempre é verdade. Além disso, a definição clássica de probabilidade não é aplicável a experimentos aleatórios com um número infinito de resultados possíveis.

Richard von Mises
A definição frequentista de probabilidade foi proposta Richard von Mises em 1928, no livro “Wahrscheinlichkeit, Statistik und Wahrheit”. Mises definiu a probabilidade de um evento como a razão entre o número de vezes que o evento ocorre e o número total de vezes que o experimento é repetido, desde que o número de repetições seja grande o suficiente. A definição frequentista de probabilidade foi questionada por diversos autores do século XX, pois ela pressupõe que o experimento pode ser repetido um número infinito de vezes, o que nem é possível na prática. A probabilidade frequentista define a probabilidade de um evento (a probabilidade a longo prazo ) como o limite da sua frequência relativa em infinitas tentativas.

Andrey Kolmogorov
A definição axiomática de probabilidade foi proposta por Andrey Kolmogorov em 1933, no livro “Grundbegriffe der Wahrscheinlichkeitsrechnung”. Kolmogorov definiu a probabilidade de um evento como uma medida de probabilidade que satisfaz três axiomas: não-negatividade, normalidade e aditividade. Os axiomas da probabilidade não especificam nem pressupõem qualquer interpretação particular de probabilidade, mas podem ser motivados partindo de uma definição filosófica de probabilidade e argumentando que os axiomas são satisfeitos por essa definição

A probabilidade de uma evento pode ser intepretada e definida de diferentes formas, de acordo com os seus autores:

ImportanteDefinição Clássica (Laplace)

Quando o espaço amostral \(\Omega\) é finito e todos os seus elementos são estruturalmente equiprováveis, por simetria ou por razão lógica, antes de qualquer observação, a probabilidade de um evento \(A\) é:

\[ P(A) = \frac{|A|}{|\Omega|} \]

Expressão por extenso:

\[ \textrm{Probabilidade teórica do evento A} = \frac{\text{número de vezes que o evento A ocorre no espaço amostral} }{\text{número de elementos do espaço amostral}} \]

onde \(|A|\) é o tamanho ou número de resultados favoráveis ao evento \(A\) e \(|\Omega|\) é o tamanho ou número de elementos no espaço amostral.

Esta é chamada de probabilidade a priori: é determinada pela estrutura do experimento, não por dados coletados.


Premissas:

  • Número finito de possíveis resultados
  • Hipótese de equiprobabilidade de resultados - resultados igualmente prováveis

Deficiências:

  • Não faz sentido para espaço amostral infinito
  • Não é capaz de definir a probabilidade de eventos supostamente não equiprovavéis - resultados não igualmente prováveis
ImportanteDefinição Frequentista (Von Mises)

Baseada na observação empírica. Se um experimento é repetido \(n\) vezes e o evento \(A\) ocorre \(n_A\) vezes, a probabilidade é o limite:

\[ P(A) = \lim_{n\to\infty} \frac{n_A}{n} \] Expressão por extenso:

\[ \text{Probabilidade empírica do evento A} = \lim_{n\to\infty} \frac{\text{número de vezes que o evento A ocorreu} }{\text{número de repetições do experimento}} \]


Premissas:

  • Número “suficientemente” grande de repetições do experimento aleatório
  • Condições uniformes para realização do experimento
  • Ideal para resultados não igualmente prováveis

Deficiências:

  • Definição de um número “suficientemente” grande
  • Não é capaz de definir a probabilidade de eventos que não podem ser repetidos

A outra interpretação de probabilidade é o do conceito subjetivo, porém esse não será tratado neste material.

As interpretações de probabilidades não são suficientes para a formulação rigorosa da probabilidade como é o caso de outras disciplinas da matemática, dessa forma Kolmogorov apresentou um conjunto de axiomas para definir probabilidade.

ImportanteDefinição Axiomática (Kolmogorov)

\[ P:\mathcal{A} \longrightarrow \mathbb{R} \] A função de probabilidade toma um argumento \(A\) e retorna um valor numérico.

Uma medida de probabilidade matemática estrita satisfaz:

  1. Axioma 1 - Não-negatividade: Para qualquer evento \(A\), \(P(A) \ge 0\)
  2. Axioma 2 - Normalidade: \(P(\Omega) = 1\)
  3. Axioma 3 - Aditividade: Se \(A_1,A_2,A_3,...\) é uma sequência infinita de eventos disjuntos (mutuamente exclusivos), então: \(P(A_1 \cup A_2 \cup A_3 \cup \cdots)=\sum_{i=1}^{\infty}{P(A_i)}\)
    • Ou seja, para dois eventos mutuamente exclusivos, teríamos (\(A \cap B = \emptyset\)), \(P(A \cup B) = P(A) + P(B)\).

A seguir temos as consequências dos axiomas de Kolmogorov.

  • \(P(\emptyset) = 0\)
  • \(P(A^c) = 1 - P(A)\), onde \(A^c\) é o evento complementar.
  • \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
  • Limites da probabilidade: \(0 \le P(A) \le 1\)
  • Monotonicidade: Se \(A \subseteq B\), então \(P(A) \le P(B)\)

Probabilidade do conjunto vazio: \(P(\emptyset) = 0\)

Demonstração:

Sabemos que \[ \Omega = \Omega \cup \emptyset \]

Como \(\Omega\) e \(\emptyset\) são disjuntos, pela aditividade: \[ P(\Omega) = P(\Omega) + P(\emptyset) \]

Subtraindo \(P(\Omega)\) dos dois lados: \[ P(\emptyset) = 0 \]

Regra do Complemento: \(P(A^c) = 1 - P(A)\)

Demonstração:

Observe que \[ \Omega = A \cup A^c \]

e que \(A \cap A^c = \emptyset\).

Logo, \[ P(\Omega) = P(A) + P(A^c) \]

Como \(P(\Omega) = 1\): \[ P(A^c) = 1 - P(A) \]

Limites da Probabilidade: \(0 \le P(A) \le 1\)

Demonstração:

Pelo axioma da não-negatividade, \(P(A) \ge 0\).

Além disso, como \[ \Omega = A \cup A^c \]

temos \[ 1 = P(A) + P(A^c) \]

Como \(P(A^c) \ge 0\), segue que \[ P(A) \le 1 \]

Monotonicidade: Se \(A \subseteq B\), então \[ P(A) \le P(B) \]

Demonstração:

Se \(A \subseteq B\), podemos escrever \[ B = A \cup (B \setminus A) \]

com união disjunta.

Logo, \[ P(B) = P(A) + P(B \setminus A) \]

Como \(P(B \setminus A) \ge 0\), segue que \[ P(B) \ge P(A) \]

Fórmula da União de Dois Eventos: \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)

Demonstração:

Podemos decompor \(B\) como \[ B = (A \cap B) \cup (A^c \cap B) \]

com união disjunta. Assim, \[ P(B) = P(A \cap B) + P(A^c \cap B) \]

Agora escrevemos \[ A \cup B = A \cup (A^c \cap B) \]

Também é união disjunta, então \[ P(A \cup B) = P(A) + P(A^c \cap B) \]

Substituindo \[ P(A^c \cap B) = P(B) - P(A \cap B) \]

obtemos \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Subaditividade: \(P(A \cup B) \le P(A) + P(B)\)

Justificativa:

Da fórmula anterior, \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Como \(P(A \cap B) \ge 0\), concluímos que \[ P(A \cup B) \le P(A) + P(B) \]

Comentário Final

Essas propriedades mostram que a probabilidade se comporta como uma medida de tamanho para conjuntos.

A partir apenas desses três axiomas, toda a teoria da probabilidade é construída: probabilidade condicional, independência, Teorema de Bayes, variáveis aleatórias e resultados assintóticos.

Exemplo2.2.0.1 Exemplo
  • \(\mathcal{E}\): Lançamento de uma moeda, uma única vez (sem especificar se é justa ou não).
  • \(\Omega\): O espaço amostral é \(\Omega = \{H, T\}\). \(H\) cara e \(T\) coroa.

Os axiomas especificam que \(P(\Omega) = 1\), de forma que, para completar a atribuição de probabilidade, falta apenas determinar \(P(H)\) e \(P(T)\).

Já que \(H\) e \(T\) são os resultados do experimento, são também eventos simples e naturalmente mutuamente exclusivos, assim, \(H \cup T = \Omega\), o Axioma 3 implica que \(1 = P(\Omega) = P(H) + P(T)\).

Essa expressão implica que \(P(T) = 1 - P(H)\) ou \(P(H) = 1 - P(T)\).

A única liberdade permitida pelos axiomas nesses experimentos é a escolha de um valor para a probabilidade atribuída a um dos eventos simples, por exemplo \(H\).

Uma possível atribuição de probabilidades é \(P(H) = 0.5\), \(P(T) = 0.5\), enquanto outra atribuição possível é \(P(H) = 0.75\), \(P(T) = 0.25\), e assim por diante.

De fato, representar \(p\) por qualquer número fixo entre 0 e 1, assim:

  • \(P(H) = p\)
  • \(P(T) = 1 - p\)

é uma atribuição consistente com os axiomas.

Exemplo2.2.0.2 Exemplo
  • \(\mathcal{E}\): Considere um sistema de cinco componentes idênticos ligados em série, conforme ilustrado na Figura 2.1. Represente um componente que falha por F e o que não falha por S (de sucesso). Represente por \(A\) o evento em que o sistema falha
  • \(\Omega\): O espaço amostral é \(\Omega = \{SSSSS, SSSSF, SSSFS, ... \}\). \(S\) sucesso e \(F\) falha.
flowchart LR
    I[" "] L_I_A_0@--> A[" "]
    A L_A_B_0@--> B[" "]
    B L_B_C_0@--> C[" "]
    C L_C_D_0@--> D[" "]
    D L_D_E_0@--> E[" "]
    E L_E_F_0@--> F[" "]

    I@{ shape: f-circ}
    F@{ shape: f-circ}

    L_I_A_0@{ animation: slow } 
    L_A_B_0@{ animation: slow } 
    L_B_C_0@{ animation: slow } 
    L_C_D_0@{ animation: slow } 
    L_D_E_0@{ animation: slow } 
    L_E_F_0@{ animation: slow }
Figura 2.1

Para que \(A\) ocorra, ao menos um dos componentes individuais deve falhar. Os resultados de \(A\) incluem \(SSFSS\) (1, 2, 4 e 5 funcionam, mas 3 não), \(FFSSS\) e assim por diante. Na verdade há 31 diferentes resultados em \(A\). Entretanto, \(A\), o evento em que o sistema funciona, consiste em um único resultado \(SSSSS\).

Na próxima seção veremos que se 90% de todos esses componentes não apresentarem falhas e se componentes diferentes apresentarem falhas independentemente um do outro, \(P(A^c) = P(SSSSS) = 0.90^5 = 0.59\). Portanto, \(P(A) = 1 – 0.59 = 0.41\). Dessa forma, em um grande número de tais sistemas, cerca de 41% apresentarão falhas.

Para o cálculo de probabilidades, devemos, com base no experimento aleatório, definir o espaço amostral e os eventos de interesse e a lei de probabilidade.

  • Lei de equiprobabilidade: quando todos os resultados (ou eventos simples) tem a mesma probabilidade de ocorrer.
  • Lei de não equiprobabilidade: quando os resultados (ou eventos simples) não tem a mesma probabilidade de ocorrer.
Exemplo2.2.0.3 Exemplo
  • \(\mathcal{E}\): Lançamento de uma moeda justa, uma única vez.

  • \(\Omega\): O espaço amostral é \(\Omega = \{H, T\}\). \(H\) cara e \(T\) coroa.

  • Eventos simples: \(A = \{H\}\) e \(B = \{T\}\).

  • Lei de equiprobabilidade: resultados igualmente prováveis.

  • Definição clássica de probabilidade:

\[P(A) = \frac{|A|}{|\Omega|} = \frac{1}{2}\]

Figura 2.2: Exemplo de lançamento de moeda justa
Exemplo2.2.0.4 Exemplo
  • \(\mathcal{E}\): Lançamento de uma moeda não justa, uma única vez.

  • \(\Omega\): O espaço amostral é \(\Omega = \{H, T\}\). \(H\) cara e \(T\) coroa.

  • Lei de não equiprobabilidade: resultados não igualmente prováveis. \(P(H) = p, P(T) = 1 - p\)

  • Definição frequencista de probabilidade:

\[P(A) = \lim_{n \to \infty} \frac{n(A)}{n}\]

Figura 2.3: Exemplo de lançamento de moeda viesada

Para obtermos a probabilidade desse resultado devemos executar o experimento um grande número de vezes. Faremos então uma simulação para estimar essa probabilidade.

Código
library(ggplot2)

set.seed(42)

# Imagine que a "verdadeira" frequencia de H é 0.60
p_H <- 0.60

# Simular N lançamentos individuais
N_max    <- 2000
resultados <- rbinom(N_max, size = 1, prob = p_H)
freq_rel   <- cumsum(resultados) / seq_along(resultados)
df_conv    <- data.frame(n = 1:N_max, freq = freq_rel)

ggplot(df_conv, aes(x = n, y = freq)) +
  geom_line(color = "#2c7bb6", linewidth = 0.8) +
  geom_hline(yintercept = p_H, linetype = "dashed",
             color = "#d7191c", linewidth = 1) +
  annotate("text", x = 100, y = p_H + 0.05,
           label = sprintf("P(H) ≈ %.2f", p_H),
           color = "#d7191c", size = 4) +
  labs(
    x = "Número de lançamentos (N)",
    y = "Frequência relativa de caras",
    title = "Convergência Empírica: Lei dos Grandes Números",
    subtitle = "Lançamento de uma moeda viesada"
  ) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1),
                     limits = c(0, 1)) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title    = element_text(face = "bold"),
    panel.grid.minor = element_blank() )
Figura 2.4: Convergência da frequência relativa de caras (linha vermelha pontilhada = estimativa estabilizada de 60%). Com poucas amostras a frequência oscila; com N grande ela converge.

Lei dos Grandes Números: informa que quanto mais observações são coletadas, a proporção de ocorrência de um resultado particular converge na probabilidade daquele resultado.

3 Regras para o cálculo de probabilidades

Agora veremos as regras para o cálculo de probabilidades. Elas auxiliam no cálculo de probabilidades de eventos mais complexos.

3.1 Regra da adição

A regra da adição é utilizada para calcular a probabilidade da união de dois ou mais eventos. No caso de dois eventos ela se refere a probabilidade de \(A\) ou \(B\) ou ambos ocorrerem.

Se os eventos forem mutuamente exclusivos, a regra da adição é simplificada para:

\[ P(A \cup B) = P(A) + P(B) \]

Figura 3.1: União de dois eventos mutuamente exclusivos

Se os eventos não forem mutuamente exclusivos, a regra da adição é: \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Figura 3.2: União de dois eventos não mutuamente exclusivos

Para três eventos: \[ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) \]

Figura 3.3: União de três eventos não mutuamente exclusivos

A união pode se dar sobre um conjunto finito ou infinito de eventos, segundo o Axioma 3 de Kolmogorov.

ImportanteRegra da adição

De maneira simplificada, a regra da adição:

Para dois eventos: \[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

Para três eventos:

\[ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) \]

Onde, para \(n\) eventos, o cálculo da probabilidade da união é bastante demandante.

Uma lei muito útil para o cálculo de probabilidades da união de múltiplos eventos é a lei de DeMorgan`s, que diz o seguinte:

NotaLei de DeMorgan`s

A lei explicita que é possível calcular a união de múltiplos eventos calculando a intersecção dos eventos complementares.

\[(A \cup B)^c = A^c \cap B^c\] \[(A \cup B \cup C)^c = A^c \cap B^c \cap C^c\]

e assim por diante. Aplicada ao cálculo de probabilidade, temos:

\[ P((A \cup B)^c) = P(A^c \cap B^c) \]


\[ P(A \cup B) = 1 - P(A^c \cap B^c) \]


\[ P(A \cup B \cup C) = 1 - P(A^c \cap B^c \cap C^c) \]

Exemplo3.1.0.1 Exemplo
  • \(\mathcal{E}\): Em um determinado bairro residencial, 60% de todos os lares assinam o Netflix (\(N\)), 80% assinam o Disney+ (\(D\)) e 50% de todos os lares assinam os dois. Se um lar for selecionado aleatoriamente, qual será a probabilidade de ele assinar (1) ao menos um dos serviços de streaming e (2) exatamente um dos dois serviços de streaming?
  • \(\Omega\): O espaço amostral é o conjunto de todos os lares do bairro, \(\Omega = \{N^cD^c, ND^c, N^cD, ND\}\).

As probabilidades obtidas pelo enunciado são:

  • \(P(N) = 0.60\)
  • \(P(D) = 0.80\)
  • \(P(N \cap D) = 0.50\)

Perguntas

  1. Qual será a probabilidade de ele assinar ao menos um dos serviços de streaming, \(A\)
  2. Qual será a probabilidade de ele assinar exatamente um dos dois serviços de streaming, \(B\)?

Respostas

  1. \(P(A) = P(N \cup D) = P(N) + P(D) - P(N \cap D) = 0.60 + 0.80 - 0.50 = 0.90\)

  2. \(P(B) = P(ND^c \cup N^cD)\), como os eventos \(ND^c\) e \(N^cD\) são mutuamente exclusivos, temos:

  • \(P(B) = P(ND^c) + P(N^cD) = P(N \cap D^c) + P(N^c \cap D)\)
    • \(P(N \cap D^c) = P(N) - P(N \cap D) = 0.60 - 0.50 = 0.10\)
    • \(P(N^c \cap D) = P(D) - P(N \cap D) = 0.80 - 0.50 = 0.30\)
    • \(P(B) = P(N \cap D^c) + P(N^c \cap D) = 0.10 + 0.30 = 0.40\)
Figura 3.4: Diagrama de Venn para o exemplo de serviços de streaming
Exemplo3.1.0.2 Exemplo
  • \(\mathcal{E}\): Uma determinada fábrica opera em três turnos diferentes. No ano anterior, ocorreram 200 acidentes na fábrica. Alguns deles podem ser atribuídos em parte a condições de trabalho inseguras, enquanto os outros não estão relacionados a condições de trabalho. A tabela a seguir fornece as porcentagens de acidentes que se encaixam em cada categoria de turno de trabalho.

  • \(\Omega\): O espaço amostral é o conjunto de todos os acidentes ocorridos na fábrica.

Tabela 3.1: Tabela de probabilidades por turno e tipo de condição
Turno Condições Inseguras Não relacionado às condições
Dia 10% 35%
Alternado 8% 20%
Noite 5% 22%

Suponha que um dos 200 relatórios de acidente seja selecionado aleatoriamente de um arquivo de relatórios e sejam determinados o tipo de acidente e o turno.

Perguntas

  1. Quais são os eventos simples?
  2. Qual é a probabilidade de que o acidente selecionado seja atribuído a condições inseguras?
  3. Qual é a probabilidade de que o acidente selecionado não tenha ocorrido no turno do dia?

Respostas

Sejam \(S_1, S_2\) e \(S_3\) os turnos: dia, alternado e noite, respectivamente.

Sejam \(C_1\) e \(C_2\) as condições inseguras e não relacionadas às condições, respectivamente.

  1. Os eventos simples, ou os 6 possíveis resultados, são {\(S_1C_1\)}, {\(S_1C_2\)}, {\(S_2C_1\)}, {\(S_2C_2\)}, {\(S_3C_1\)}, {\(S_3C_2\)}, pela notação considere \(S_iC_j\) como a intersecção dos eventos, \(S_i \cap C_j\), exemplo \(S_1C_1 = S_1 \cap C_1\).
  2. \(P({C_1})= P({S_1C_1} \cup {S_2C_1} \cup {S_3C_1})= 0.10 + 0.08 + 0.05 = 0.23\)
  3. \(P({S_1}^c) = 1 - P({S_1C_1} \cup {S_1C_2}) = 1 – ( 0.10 + 0.35) = 0.55\)
Exemplo3.1.0.3 Exemplo
  • \(\mathcal{E}\): Considere o tipo de secadora de roupas (a gás ou elétricas) comprada por cinco clientes diferentes em uma loja.

Perguntas

  1. Se a probabilidade de no máximo um desses clientes fazer uma compra de uma secadora elétrica for \(0.428\), qual será a probabilidade de ao menos dois clientes comprarem uma secadora elétrica?
  2. Se \(P\)(os cinco comprarem a gás) \(= 0.116\) e \(P\)(os cinco comprarem elétricas) \(= 0.005\), qual será a probabilidade de haver uma compra de ao menos uma de cada tipo?

Respostas

Assumindo que as compras dos clientes são eventos independentes, gás \(G\) e elétrica \(E\).

  • \(\Omega = \{GGGGG, GGGGE, GGGEG, ..., EEEEE\}\)
  1. Seja \(A\) o evento de que no máximo um cliente faça uma compra de uma secadora elétrica. Então \(A^c\) é o evento de que pelo menos dois clientes comprem uma secadora elétrica.

    • \(P(A^c) = 1 - P(A) = 1 - 0.428 = 0.572\)
  2. Seja \(B = \{GGGGG\}\) o evento de que os cinco comprem a gás. Seja \(C = \{EEEEE\}\) o evento de que os cinco comprem elétricas. Todos os outros resultados possíveis são aqueles em que pelo menos um de cada tipo é comprado. Assim, a probabilidade desejada é:

    • \(P\)(uma compra de ao menos uma de cada tipo) \(= 1 - P(B) - P(C) = 1 - 0.116 - 0.005 = 0.879\)

3.2 Probabilidade Condicional

Para entender melhor essa regra do cálculo de probabilidade, imagine o cenário em que o evento \(B\) já ocorreu, e neste cenário você gostaria de calcular a probabilidade de \(A\) ocorrer. Para isso, você precisa “re-escalar” o espaço amostral para o evento \(B\), ou seja, considerar que o evento \(B\) é o novo espaço amostral. Assim, a probabilidade de \(A\) ocorrer, dado que \(B\) ocorreu, é a probabilidade de \(A \cap B\) ocorrer, re-escalada no universo de \(B\).

(a) Espaço amostral e seus eventos
(b) Probabilidade condicional de \(A\), re-escalada em \(B\)
Figura 3.5: Probabilidade Condicional
ImportanteProbabilidade Condicional

A probabilidade condicional é a probabilidade de um evento ocorrer, dado que um outro evento já ocorreu. A probabilidade condicional de um evento \(A\) dado um evento \(B\) é definida como: \[ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad \text{se } P(B) > 0 \]

Lê-se probabilidade condicional de \(A\) dado \(B\).

Exemplo3.2.0.1 Exemplo
  • Suponha que,de todos os indivíduos que compram um determinado celular, 60% incluem um cartão de memória opcional na compra, 40% incluem uma capa protetora extra e 30% incluem um cartão e uma capa protetora. Considere a seleção aleatória de um comprador e sejam A {compra de cartão de memória} e B {compra de capa protetora}. Dessa forma, \(P(A)=0.60\), \(P(B) = 0.40\) e \(P\)(compra de ambos) \(= P(A \cap B) = 0.30\). Dado que o indivíduo selecionado comprou uma capa, a probabilidade de compra de um cartão opcional é

\[P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0.30}{0.40} = 0.75\]

Isto é, de todos os que compraram uma capa, 75% compraram um cartão de memória extra. De forma análoga,

\[P(\text{capa}|\text{cartão de memória}) = P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{0.30}{0.60} = 0.50\]

Observe que \(P(A|B) \neq P(A)\) e \(P(B|A) \neq P(B)\)

3.3 Regra da Multiplicação

A regra da multiplicação é uma consequência direta da definição de probabilidade condicional. Ela é usada para calcular a probabilidade da intersecção de dois eventos, ou seja, a probabilidade de que ambos os eventos ocorram (simultaneamente). É probabilidade conjunta de eventos, de uma evento e outro evento ocorrer.

ImportanteRegra da Multiplicação

A probabilidade da intersecção de dois eventos \(A\) e \(B\) é dada por:

\[ P(A \cap B) = P(A) \cdot P(B|A) \]

Pode ser ler como a probabilidade de \(A\) ocorrer e \(B\) ocorrer, dado que \(A\) já ocorreu.

Por simetria, podemos escrever a regra da multiplicação de uma outra forma, como mostrado abaixo.

\[ P(A \cap B) = P(B) \cdot P(A|B) \]


A regra da multiplicação pode ser estendida para mais de dois eventos. Por exemplo, para três eventos \(A\), \(B\) e \(C\), a regra da multiplicação é dada por:

\[ P(A \cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A \cap B) \]

Por simetria, podemos escrever a regra da multiplicação de outras formas, como mostrado abaixo.

\[ P(A \cap B \cap C) = P(A) \cdot P(C|A) \cdot P(B|A \cap C) \]

\[ P(A \cap B \cap C) = P(B) \cdot P(A|B) \cdot P(C|A \cap B) \]

\[ P(A \cap B \cap C) = P(B) \cdot P(C|B) \cdot P(A|B \cap C) \]

\[ P(A \cap B \cap C) = P(C) \cdot P(A|C) \cdot P(B|A \cap C) \]

\[ P(A \cap B \cap C) = P(C) \cdot P(B|C) \cdot P(A|B \cap C) \]

3.3.1 Eventos Dependentes e Independentes

Existem uma relação entre os eventos, essa relação pode ser classificada como a dependência ou independência entre os eventos.

Se houver uma dependência entre os eventos, então a probabilidade de um evento ocorrer é afetada pela probabilidade do outro evento ocorrer, é onde a regra da probabilidade condicional é utilizada.

Se houver independência entre os eventos, então a probabilidade de um evento ocorrer não é afetada pela probabilidade do outro evento ocorrer, ou seja, dado que um evento ocorreu, a probabilidade do outro evento ocorrer não se altera. Logo a probabilidade condicional é igual a probabilidade simples, ou seja, por exemplo, \(P(A|B) = P(A)\) e \(P(B|A) = P(B)\).

NotaEventos Independentes

Se dois eventos são independentes, implica que a probabilidade de um não se altera com a ocorrência do outro, logo a probabilidade da intersecção (ou conjunta) de dois eventos, \(A\) e \(B\), é dada por: \[ P(A \cap B) = P(A)P(B) \]

Se e somente se, \(A\) e \(B\) forem independentes.

Equivalentemente: \(P(A|B) = P(A)\) e \(P(B|A) = P(B)\).


Para três eventos independentes \(A\), \(B\) e \(C\), a probabilidade da intersecção (ou conjunta) de três eventos é dada por: \[ P(A \cap B \cap C) = P(A)P(B)P(C) \]

E assim por diante para \(n\) eventos independentes.

3.4 Regra da Probabilidade Total

Imagine que você gerencia a linha de montagem de um componente eletrônico crítico, alimentada por três fornecedores diferentes: \(A_1\), \(A_2\) e \(A_3\). Cada fornecedor entrega uma fração diferente do inventário total e possui uma taxa de defeito inerente distinta.

Se um componente é retirado aleatoriamente da esteira final de produção, qual é a probabilidade global de que ele seja defeituoso (\(B\))?

Como a produção mistura peças de várias origens, não podemos simplesmente usar a taxa de um único fornecedor. Precisamos particionar o problema em partes mais gerenciáveis e combiná-las formalmente.

A Regra da Probabilidade Total lida com isso particionando o espaço amostral em cenários exaustivos e mutuamente exclusivos. Se os eventos \(A_1, A_2, \dots, A_n\) formam uma partição do espaço amostral \(\Omega\) (isto é, \(\bigcup A_i = \Omega\) e \(A_i \cap A_j = \emptyset\) para \(i \neq j\)), a probabilidade de um evento \(B\) pode ser expressa como a soma das probabilidades de \(B\) ocorrer em intersecção com cada \(A_i\):

\[ P(B) = \sum_{i=1}^{n} P(B \cap A_i) \]

Utilizando a regra da multiplicação vista anteriormente ($P(B A_i) = P(A_i) P(B | A_i) $), reescrevemos a probabilidade total de \(B\) como:

\[ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) \]

De forma prática, a probabilidade global de um efeito \(P(B)\) é a média das probabilidades condicionais daquele efeito diante de cada cenário \(P(B | A_i)\), ponderadas pela chance de cada cenário acontecer, \(P(A_i)\).

Podemos ilustrar a regra particionando o espaço amostral de um diagrama de Venn.

Código
\usetikzlibrary{shapes.geometric, arrows, backgrounds}
\begin{tikzpicture}
  % Draw the sample space
  \draw[thick] (0,0) rectangle (8,5) node[below left] {$\Omega$};
  % Draw partitions
  \draw[thick] (2.5, 0) -- (2.5, 5);
  \draw[thick] (5.5, 0) -- (5.5, 5);
  
  \node[font=\Large\bfseries] at (1.25, 4.5) {$A_1$};
  \node[font=\Large\bfseries] at (4, 4.5) {$A_2$};
  \node[font=\Large\bfseries] at (6.75, 4.5) {$A_3$};
  
  % Draw event B
  \draw[thick, fill=blue, fill opacity=0.3] (4,2.5) ellipse (3.5cm and 1.5cm);
  
  % Nodes for intersections
  \node at (1.5, 2.5) {$B \cap A_1$};
  \node at (4, 2.5) {$B \cap A_2$};
  \node at (6.5, 2.5) {$B \cap A_3$};
\end{tikzpicture}
Figura 3.6: Diagrama ilustrando a Regra da Probabilidade Total. O evento \(B\) é a união de suas fatias (\(B \cap A_i\)) sobre o espaço particionado.

3.5 Teorema de Bayes

Enquanto a Probabilidade Total calcula a chance matemática do efeito \(B\) ocorrer, o Teorema de Bayes é utilizado reversamente como ferramenta de diagnóstico de causa.

Retornando ao exemplo logístico: constatou-se que um componente na saída está defeituoso. Qual a confiança de que ele tenha vindo do fornecedor \(A_1\)?

O que procuramos é \(P(A_1 | B)\), revertendo a condicional que costumamos ter catalogada como métrica de qualidade (\(P(B | A_1)\)).

O Teorema de Bayes expressa essa lógica de reversão analiticamente:

\[ P(A_i | B) = \frac{P(A_i \cap B)}{P(B)} = \frac{P(B | A_i) P(A_i)}{\sum_{j=1}^{n} P(B | A_j) P(A_j)} \]

O numerador representa a intersecção do fato com um cenário causal, ao passo que o denominador normaliza todas as vias por intermédio da Propabilidade Total do evento.

Tudo que envolva processos em estágios, como Causa \(\to\) Efeito, é também melhor organizado usando um diagrama de árvore de probabilidades.

Código
\usetikzlibrary{trees,matrix,calc}
\begin{tikzpicture}[
    grow=right,
    level 1/.style={sibling distance=3cm, level distance=3.5cm},
    level 2/.style={sibling distance=1.5cm, level distance=3.5cm},
    every node/.style={fill=white, inner sep=2pt}
  ]
  \node[inner sep=0pt] (root) {}
    child {node (A3) {$A_3$}
      child {node (A3Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_3)$}}
      child {node (A3B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_3)$}}
      edge from parent node[below] {$P(A_3)$}
    }
    child {node (A2) {$A_2$}
      child {node (A2Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_2)$}}
      child {node (A2B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_2)$}}
      edge from parent node[above, near start] {$P(A_2)$}
    }
    child {node (A1) {$A_1$}
      child {node (A1Bc) {$B^c$} edge from parent node[below] {$P(B^c|A_1)$}}
      child {node (A1B) {$\boldsymbol{B}$} edge from parent node[above] {$P(B|A_1)$}}
      edge from parent node[above] {$P(A_1)$}
    };

  \matrix [matrix of math nodes,
           nodes in empty cells,
           row sep={1.5cm,between origins},
           column sep=5mm,
           anchor=mat-2-1.west
           ]
  (mat) at ($(A1B.east)+(1,0)$) 
  {
    \omega       & P(\omega)        & B       \\
    \{A_1\cap \boldsymbol{B}\}   & P(A_1)P(B|A_1)   & \bullet \\
    \{A_1\cap B^c\} & P(A_1)P(B^c|A_1) &         \\
    \{A_2\cap \boldsymbol{B}\}   & P(A_2)P(B|A_2)   & \bullet \\
    \{A_2\cap B^c\} & P(A_2)P(B^c|A_2) &         \\
    \{A_3\cap \boldsymbol{B}\}   & P(A_3)P(B|A_3)   & \bullet \\
    \{A_3\cap B^c\} & P(A_3)P(B^c|A_3) &         \\
                 &                  &  P(B)    \\
  };

  % Horizontal lines for the table
  \foreach \x/\y in {1/2, 2/3, 3/4, 4/5, 5/6, 6/7, 7/8}
    {\draw [-] ($(mat-\x-1.west -| mat-2-1.west)!0.5!(mat-\y-1.west)$) --
      ($(mat-\x-3.east -| mat-1-3.east)!0.5!(mat-\y-3.east -| mat-1-3.east)$);}

  % Indicate summation by double rule
  \draw [double, shorten >=-1mm, shorten <=-1mm]
    ($(mat-7-2.west)!0.5!(mat-8-2.west)$) --
    ($(mat-7-2.east)!0.5!(mat-8-2.east)$);

\end{tikzpicture}
Figura 3.7: Árvore de probabilidades dos caminhos de causa de \(A\) em direção aos efeitos \(B\) e manifestação global.
ImportanteTeorema de Bayes

O Teorema de Bayes expressa uma probabilidade condicional, e para ser obtida é necessário conhecer a probabilidade condicional do evento inverso e as probabilidades marginais dos eventos. Para calcular a probabilidade de \(B\) faz se o uso da regra da probabilidade total. \[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]


Relembrando: Regra da probabilidade total \[ P(B) = \sum_{i=1}^{n} P(A_i) \cdot P(B | A_i) \]

Exemplo3.5.0.1 Exemplo

Vamos estruturar um caso prático na área de qualidade.

Problema: Uma fábrica tem 3 máquinas (\(M_1, M_2, M_3\)) produzindo uma mesma peça mecânica nas proporções de carga de \(30\%, 20\%, \text{ e } 50\%\). As taxas de defeito históricas de cada máquina são rigidamente calculadas em \(2\%, 4\%, \text{ e } 1\%\).

  1. Se a expedição escolhe aleatoriamente uma peça recém acabada, qual a sua predição teórica da peça possuir um defeito (\(D\))?
  2. Recebido o laudo de Defeito daquela peça, calcule o grau de suspeita de ter sido processada primariamente na Máquina 1.

Solução:

O texto define as origens produtivas como partições exaustivas:

  • \(P(M_1) = 0.30, P(M_2) = 0.20, P(M_3) = 0.50\)

E as taxas de falha (condicionais):

  • \(P(D|M_1) = 0.02, P(D|M_2) = 0.04, P(D|M_3) = 0.01\)

Aplicando (1) Regra da Probabilidade Total: \[ P(D) = P(D|M_1)P(M_1) + P(D|M_2)P(M_2) + P(D|M_3)P(M_3) \] \[ P(D) = (0.02 \times 0.30) + (0.04 \times 0.20) + (0.01 \times 0.50) = 0.006 + 0.008 + 0.005 = 0.019 \] Encontramos uma probabilidade teórica de 1.9% da fábrica produzir uma peça com defeito.

Aplicando (2) Teorema de Bayes usando o total acima para descobrir \(P(M_1|D)\): \[ P(M_1|D) = \frac{P(D|M_1)P(M_1)}{P(D)} = \frac{0.006}{0.019} \approx 0.31578 \] Temos a inferência que existe \(31.58\%\) de credibilidade empírica à hipótese que a Máquina 1 seja o agente causador.

NotaVerificação em R - Lei dos Grandes Números Aplicada
Código
# Simulação de confiabilidade fabril usando inferência estatística (Monte Carlo)
set.seed(42)
N <- 10^6

# 1. Simular o maquinário escolhido em linha com os pesos de produção fabril
maquinas <- sample(c("M1", "M2", "M3"), size = N, replace = TRUE, prob = c(0.3, 0.2, 0.5))

# 2. Inserir defeitos de acordo com a premissa individual e condicional computacional
defeitos <- numeric(N)
defeitos[maquinas == "M1"] <- rbinom(sum(maquinas == "M1"), 1, 0.02)
defeitos[maquinas == "M2"] <- rbinom(sum(maquinas == "M2"), 1, 0.04)
defeitos[maquinas == "M3"] <- rbinom(sum(maquinas == "M3"), 1, 0.01)

# Validação: Taxa de probabilidade Total - P(D)
prob_simulada_D <- sum(defeitos == 1) / N

# 3. Restringir observações APENAS ao subset classificado no defeito
amostra_defeituosa <- maquinas[defeitos == 1]

# Validação: Proporcionalidade reversa das causas ou Bayes - P(M1|D)
prob_simulada_M1_dado_D <- sum(amostra_defeituosa == "M1") / length(amostra_defeituosa)

cat(sprintf("   - Probabilidade Total  Analítica(1.9%%):  %.4f | Simulada: %.4f\n", 0.0190, prob_simulada_D))
cat(sprintf("   - Teorema de Bayes     Analítico(31.58%%): %.4f | Simulado: %.4f\n", 0.3158, prob_simulada_M1_dado_D))
   - Probabilidade Total  Analítica(1.9%):  0.0190 | Simulada: 0.0190
   - Teorema de Bayes     Analítico(31.58%): 0.3158 | Simulado: 0.3184

O resultado computacional nos auxilia a entender a derivação analítica. Simular \(10^6\) rodadas de um equipamento auxilia na compreensão dessas fórmulas para avaliar as reais responsabilidades por quebras em qualquer malha de produção ou processamento contínuo.

Dica: Construa uma árvore de probabilidades para auxiliar na resolução de problemas de probabilidade condicional.