Bonjour, j'ai besoin d'aide pour mon dm de math de terminal, merci d'avance.
Le filtrage bayésien anti-spam:
Principe: Dans une première phase (phase d'apprentissage), l'utilisateur, en désignant les spams et les messages légitimes permet au filtre d'établir une base de données qui permettra de calculer la probabilité qu'un message soit un spam ou non en fonction des mots que contient ce message.
1) Une boîte mail contient 2500 messages. On considère que 1700 de ces messages sont des spams. Le mot "euros" est dans 1400 spams et dans 100 messages qui ne sont pas des spams. Quelle est la probabilité qu'un mail qui contient le mot "euros" soit un spam ?
Pour celle là je pense avoir trouver (14/15)
2) Dans cette question, on considère que la proportion de spams est p où p∈[0;1].
Le mot "chance" apparaît dans 20% des spams et dans 8% des non-spams
a)Montrer que la probabilité qu'un mail qui contient le mot chance soit un spam est égale à (5p)/(2+3p).
Et c'est là où je bloque, je suppose que je dois utiliser la loi de Bernoulli mais vu le seul exemple que j'ai dans mon cours (On appelle épreuve de Bernoulli une expérience aléatoire qui ne comptent qui 2 issues = l'une appelé succès (S) et l'autre échec (S̄), Si p(S)=p alors p(S̄)=1-p) je ne vois pas du tout comment l'adapter a mon exercice
merci de votre aide.
Math Comp. Probabilité
Re: Math Comp. Probabilité
Bonjour
1) Je désigne par $S$ c'est un spam et par $E$ le message contient le mot euro.
Traduction des hypothèses : $P(S)=\frac{1700}{2500}=\frac{17}{25}$ donc $P(\overline S)=\frac{8}{25}$
$P_S(E)=\frac{1400}{1700} =\frac{14}{17}$ et $P_{\overline S}(E)=\frac{100}{800} =\frac{1}{8}$
$P(E)=\frac{1500}{2500} = \frac{3}{5}$
On a donc $P(E\cap S) =P_S(E)\times P(S) = \frac{14}{17} \times\frac{17}{25} =\frac{14}{25}$
$\displaystyle P_E(S)=\frac{P(E\cap S)}{P(E)} = \frac{\frac{14}{25}}{\frac{3}{5}}=\frac{14}{15}$
Donc d'accord avec votre réponse.
2) Pas de Bernoulli. On raisonne comme dans la question précédente.
$P_S(C)=0,2$ et $P_{\overline S}(C)=0,08$
$P(S\cap C) = P_S(C)\times P(S) =0,2p$ et $P(\overline S\cap C)= 0,08(1-p)$
Donc $P(C)=0,2p +0,08(1-p)= 0,12 p +0,08$
On demande $\displaystyle P_C(S) = \frac{P(S\cap C)}{P(C)}= \frac{0,2p}{0,12p+0,08}=\frac{5p}{2+3p}$ (en multipliant numérateur et dénominateur par 5).
1) Je désigne par $S$ c'est un spam et par $E$ le message contient le mot euro.
Traduction des hypothèses : $P(S)=\frac{1700}{2500}=\frac{17}{25}$ donc $P(\overline S)=\frac{8}{25}$
$P_S(E)=\frac{1400}{1700} =\frac{14}{17}$ et $P_{\overline S}(E)=\frac{100}{800} =\frac{1}{8}$
$P(E)=\frac{1500}{2500} = \frac{3}{5}$
On a donc $P(E\cap S) =P_S(E)\times P(S) = \frac{14}{17} \times\frac{17}{25} =\frac{14}{25}$
$\displaystyle P_E(S)=\frac{P(E\cap S)}{P(E)} = \frac{\frac{14}{25}}{\frac{3}{5}}=\frac{14}{15}$
Donc d'accord avec votre réponse.
2) Pas de Bernoulli. On raisonne comme dans la question précédente.
$P_S(C)=0,2$ et $P_{\overline S}(C)=0,08$
$P(S\cap C) = P_S(C)\times P(S) =0,2p$ et $P(\overline S\cap C)= 0,08(1-p)$
Donc $P(C)=0,2p +0,08(1-p)= 0,12 p +0,08$
On demande $\displaystyle P_C(S) = \frac{P(S\cap C)}{P(C)}= \frac{0,2p}{0,12p+0,08}=\frac{5p}{2+3p}$ (en multipliant numérateur et dénominateur par 5).