Naiv Bayes klassifikator

En naiv Bayes klassifikator er en klassifikator baseret på Bayes' teorem, der anvender den naive antagelse, at alle parametre er uafhængige. I modsætning til Bayes' teorem beregner man som regel ikke normalisatoren ved klassificering, da denne vil være konstant for alle de forskellige klasser, og vil derfor bare kræve ekstra beregningstid, uden det har betydning for resultatet. Naiv Bayes klassifikatoren hører under supervised learning og kan blandt andet bruges som spam filter eller til analysering af teksters synspunkt.[1]

Sandsynlighed ved numeriske værdier

Givet et dataset med en parameter, der kun kan antage numeriske værdier (Ventetid i minutter, eksempelvis), beregnes sandsynligheden ved at benytte normalfordelingen med standardafvigelsen i stedet for variansen. [2]

Eksempel på brug

Dataprøve

Antag, at vi skal klassificere, om en dataprøve er menneske, hund eller varulv.

Givet er datasættet: [3]

ArtHøjdeKan lide at hyleKropsbehåring (I procent af dækket overflade)
Menneske150Ja5
Menneske190Nej12
Menneske165Nej6
Menneske160Nej2
Hund90Nej97
Hund110Ja93
Hund70Nej85
Varulv170Ja75
Varulv150Ja85

Tabel

Fra disse data kan afvigelsen og gennemsnittet for hvert parameter for hver klasse kan nedenstående tabel opstilles:

KlasseGennemsnit (Højde)Standardafvigelse (Højde)Gennemsnit (Behåring)Standardafvigelse (Behåring)
Menneske166,2514,73736,253,6315
Hund9016,329991,66674,9989
Varulv16010805

Klassificering

Følgende dataprøve skal nu prøves klassificeret:

HøjdeKan lide at hyleBehåring
140Nej70

Konklusion

Sandsynligheden for, det er et menneske er da givet ved:

De forskellige værdier beregnes. Da træningssættet indeholder 4 prøver af menneske-klassen ud af 9 prøver i alt, giver det:

Da et af fire mennesker kan lide at hyle fås:

De numeriske værdier giver:

Hermed fås:

For henholdsvis hund og varulv fås:

Resultat

Da værdien for varulv er højest, vil prøven blive klassificeret som en varulv.

Referencer

  1. ^ Pang, B., Lee, L., & Vaithyanathan, S. (2002, July). Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10(pp. 79-86). Association for Computational Linguistics.
  2. ^ Math Works: Classification (engelsk) (Webside ikke længere tilgængelig)
  3. ^ Naive bayes: Worked example (engelsk) (Webside ikke længere tilgængelig)