V běžném životě se to řeší rozumem nebo citem: ať už jde o výběr značky kartáčku na zuby nebo životního partnera, počítač nám příliš nepomůže. V manažerském a marketingovém rozhodování ovšem je dobré, přijde-li na pomoc statistika. Nejlepší možností často bývá vzít na pomoc takzvané rozhodovací stromy. Lezením po jejich větvích se bezpečně dostanete k cílové skupině, která vás zajímá.
Začněme příkladem, vycházejícím z databáze záznamů o domácnostech. O každé z domácností je k dispozici celkem osm údajů (polí databáze), např. věk hlavy domácnosti nebo počet osob v domácnosti. Každé z domácností v seznamu byla zaslána reklamní zásilka, a v databázi je zaneseno, zda domácnost na reklamu reagovala nebo ne. Program, vytvářející rozhodovací stromy (v našem příkladu jsme použili AnswerTree firmy SPSS) prochází jednotlivé znaky domácností a snaží se najít takový, který co nejlépe předpovídá, zda domácnost na reklamu odpoví nebo ne. V příkladě uvedeném níže byl na prvním místě nalezen věk hlavy domácnosti: je-li vyšší než 64 let, pravděpodobnost odpovědi se snižuje. – Soubor domácností se tím rozdělil na dvě podmnožiny či větve: domácnosti, jejichž hlavou je senior, a ty, jejichž hlava je v produktivním věku. A v každé z těchto větví se opět zkoumá, která další proměnná ovlivní pravděpodobnost nákupu.
V našem případě, kdy jsme strom nechali vyrůst do dvou hierarchických úrovní, se ukázalo, že nejúspěšnější zásilky byly ty, které obdrželi lidé v produktivním věku, tvořící sami domácnost (červeně zakroužkovaná větev stromu). Pokud firma bude napříště zasílat reklamní nabídky pouze takovýmto domácnostem, ušetří při stejné úspěšnosti téměř polovinu nákladů na poštu, protože úspěšnost se zvedne z 8,8 % na 15,7 %.
Předpokladem použití rozhodovacích stromů je zkušenost, zpravidla vyjádřená databází okolností a výsledků minulých rozhodnutí. Možné manažerské úlohy, řešitelné rozhodovacími stromy, například mohou být:
- Direct Marketing. Máme databázi potenciálních zákazníků. Některé jsme pokusně oslovili, a naši zkušenost vyjadřuje záznam o úspěšnosti nabídky. Chceme ze zbylých adres, které ještě nebyly osloveny, vybrat ty, kde je největší naděje na úspěch. – Tato úloha je klasickým příkladem aplikace rozhodovacích stromů. Není samozřejmě jedinou úlohou marketingového rozhodování, řešitelnou tímto způsobem, je však tou úlohou, která se ostatními statistickými metodami většinou řeší hůře.
- CRM (Customer Relationship Management). Je-li zákazníků velký počet, a chceme-li přesto u každého z nich předvídat, co od nás očekává, abychom mu mohli vyjít vstříc nabídkou šitou na míru, je statistická analýza dosavadních vztahů nezbytná. Ze záznamů v účetnictví, objednacích systémech i z dat marketingových výzkumů lze usuzovat na pravidelné vzorce chování zákazníků. Rozhodovací stromy pomohou jednotlivé zákazníky zařadit do skupin a odhadnout pravděpodobnost nákupu toho či onoho produktu.
- Skórování potenciálních dlužníků banky. Zkušenost je vyjádřena databází dosud poskytnutých úvěrů, u nichž se mj. nachází informace, zda a jak byl úvěr splácen. Úkolem je najít pravidla, podle kterých bude možné uchazeče o úvěr předem ohodnotit jako důvěryhodné či nedůvěryhodné. – Tuto úlohu uvádím jako příklad použití rozhodovacích stromů v diagnostice; jiné aplikace jsou třeba v řízení kvality, medicíně a vůbec všude, kde je třeba klasifikovat nějaké objekty na základě jejich měřitelných vlastností.
- Personální agenda velkých organizací. Tam, kde existuje hodnocení pracovníků (podle výkonu, setrvání v organizaci apod.), lze hledat souvislost mezi tímto hodnocením a dalšími informacemi o pracovníkovi a náplni jeho práce. Například zjistíme, na které pozice se vyplatí najímat čerstvé absolventy škol, a kam je naopak třeba umísťovat zkušené harcovníky. – Uvedená úloha má vedle klasifikačních rysů i charakter typologie. I pro ni lze rozhodovací stromy někdy využít.
- Segmentační a asociační úlohy při zpracování marketingových výzkumů. Kdo jsou naši zákazníci? Jaké typy zákazníků máme? Jaké sociodemografické charakteristiky nejvíce determinují oblibu značek? Kam zacílit reklamní kampaň?
Pro konstrukci rozhodovacích stromů na základě statistických dat je třeba mít k dispozici tyto ingredience:
- Dostatečně přesně zformulovanou úlohu. Příklady několika takových možných úloh jsou uvedeny výše, nejsou ovšem zdaleka jediné. Na formulování úlohy se v nejlepším případě podílejí pracovníci, kterých se problém týká, a analytik. Součástí zadání by mělo být nalezení ztrátové funkce, tedy odhad zisku ze správného rozhodnutí a ceny chybného rozhodnutí. Například při Direct Mailingu (přímém oslovení potenciálního zákazníka dopisem) je cenou chybného rozhodnutí vyhozená známka a obálka řekněme za 20 Kč, naopak ziskem ze správného rozhodnutí je nejen průměrná marže z následující objednávky, řekněme 100,- Kč, ale často i získání zákazníka na delší dobu.
- Dostatečně velká a dostatečně kvalitní data (od pár desítek záznamů až po mnohamilionové databáze), vyjadřující naši zkušenost. Zdá se mi, že v tomto směru naše firmy často sedí na pokladech, které nevyužity rezaví. Data z firemních záznamů, pokud se vhodně připraví k analýze a popřípadě propojí s další informací, mohou nabídnout nejeden přínosný podnět. – Samozřejmě je příprava dostatečně obsažných a reprezentativních dat velkým oříškem většiny projektů a nejčastěji se utratí nejvíce času a peněz právě v této fázi.
- Odpovídající software. Někdy bývají algoritmy rozhodovacích stromů zabudovány do větších balíků, určených pro statistickou analýzu dat či Data Mining. Tyto balíky ovšem stojí řádově i miliony korun a lze je doporučit ke koupi jen tam, kde budou řádně využity. Algoritmy lze ovšem za výhodnější cenu pořídit i samostatně. Já sám pracuji nejčastěji s programem AnswerTree firmy SPSS (viz www.spss.cz nebo v angličtině www.spss.com ), nyní ve verzi 3. Tento software kromě samotných rozhodovacích stromů umožňuje vytištění přehledných výsledkových tabulek, SQL pravidel pro jednotlivé „větve“ a má celou řadu užitečných voleb (různé algoritmy, ztrátové matice a podobně).
- A samozřejmě analytika, který dokáže data vyhodnotit. Na první úlohu doporučuji pomoc profesionálního analytika. Komerční programy, jako je AnswerTree, jsou však již natolik uživatelsky přívětivé, že standardní úlohu bude čerstvě zasvěcený uživatel podruhé pravděpodobně již umět zpracovat sám. Jako další příklad úlohy na rozhodovací stromy vezměme analýzu nedávného výzkumu o oblibě hudby (výzkum Hudební vkus 2001 realizovalo SC&C pro katedru muzikologie, FF MU).
Formulujme úlohu: Jako manažeři muzikálu chceme najít sociodemografické znaky potenciálních posluchačů takové hudby. Na základě dotazníku, položeného agenturou SC&C více než tisícovce respondentů, můžeme vyjít z proměnné Muzikál, udávající stupeň obliby muzikálové hudby. K dispozici máme dále celou řadu údajů o respondentovi, jeho sociální situaci, místě bydliště atd.
Data z papírových dotazníků byla agenturou přenesena do počítačového souboru tak, že údaje o každém respondentovi jsou uvedeny v jednom řádku. Data jsem načetl do programu AnswerTree, jehož průvodce (Wizard) mi umožnil zadat jednotlivé parametry. Ikonku analyzovaného znaku, tedy obliby muzikálů, jsem přenesl do okénka Target. Znaky použité jako vysvětlující patří do okénka Predictors. V našem případě jsou to nejrůznější osobní informace o respondentech.
Poté již lze programu zavelet k vytvoření stromu. Výsledek v našem případě vypadal takto:
V prvním kroku AnswerTree zjistil, že ze všech proměnných jsoucích k dispozici preference muzikálu diferencuje pohlaví. Muzikál je především ženský žánr: velmi rádo ho má 36,8 % žen oproti 14,8 % mužů. A ve skupině žen se ještě podařilo zjistit, že obliba muzikálu stoupá se vzděláním. Největší příznivkyně má muzikál ve skupině žen, které mají přinejmenším maturitu: pozváním na muzikál uděláte radost třem čtvrtinám z nich (součet kategorií „spíše ráda“ a „velmi ráda“).
Odpověď na manažerovu otázku tedy je: Muzikál potěší především vzdělané dámy. Lze ho nabídnout přímo jim, anebo upozornit jejich partnery, že právě tato vstupenka by mohla udělat dámě jejich srdce radost. Co říci závěrem: Samozřejmě mají rozhodovací stromy celou řadu dalších vlastností, aplikací, možností a záludností. K jejich prozkoumání s ohledem na Vaše úlohy ale bude lépe, když mi napíšete nebo mě navštívíte – do úvodního článku se podrobný rozbor nehodí. Rozhodně však tato metodologie stojí za pozornost a myslím, že každá firma, která má větší počet zákazníků, zaměstnanců, značek nebo odbytišť, by měla zvážit její nasazení s cílem zvýšit efektivitu. Hlavní výhody rozhodovacích stromů jsou podle mého názoru tyto:
- srozumitelnost výstupů (na rozdíl od třeba neuronových sítí),
- snadnost použití a nácviku (na rozdíl třeba od analýzy rozptylu),
- poměrně málo předpokladů (na rozdíl třeba od regrese jde o neparametrickou metodu),
- praktičnost výstupů (lze ihned propočítat očekávanou úspěšnost, očekávaný zisk, návratnost investic…),
- rychlost nasazení (někdy může poskytnout dostatečně kvalitní informaci bez nutnosti budovat komplikované statistické modely).
- pružnost (model je dostatečně složitý, aby postihl řadu poměrně složitých souvislostí, a lze ho vhodným nastavením parametrů přizpůsobit požadavkům zákazníka).