Izziv: Priimkoslovje

Dodatni material za učitelje

Delo s podatki je privlačno in zabavno – če ga znamo narediti takšnega.

So stvari, ki gotovo niso privlačne, še manj pa zabavne. Narisati graf v Excelu, izračunati povprečno oceno iz matematike v sedmem b, v kakšni zahtevnejši gimnaziji pa celo statistično signifikantnost razlike med višinami dijakinj in dijakov. Dolgčas. Komu mar takšne vaje iz seštevanja in deljenja.

Tule imamo zanimivejše podatke: zbirko 100.000 Slovencev z 200 najpogostejšimi priimki ter njihove (seveda približne) lokacije na zemljevidu in pripadajoče občine. Presenetilo nas bo, kaj vse se da izvleči iz njih.

Te podatke raziskujemo v aktivnosti Priimki, ki smo jo – poleg drugih – pripravili v okviru projekta Pouk s ščepcem umetne inteligence (Pumice). Da bi zanje izvedelo čimveč učiteljev in učencev, pa smo jo preoblikovali še v izziv – serijo štirih kratkih video posnetkov, ki jim sledi vprašanje, na katerega lahko učenci odgovorijo, če še sami naredijo nekaj podobnega, kot so videli v posnetkih.

Izziv je zasnovan tako, da se ga lahko učenci lotijo sami. Nič pa ni narobe - in celo zelo prav je - če jim pomaga tudi učitelj. Učitelj pa mora zajemati iz malo večje sklede. Tule je, ta skleda. V njej so odgovori na vprašanja iz izziva in pomoč pri morebitnih zapletih. Poleg predvidene rešitve opisujemo tudi druge poti in kažemo nekoliko širšo sliko. Tu in tam bomo navrgli še kakšno zanimivo vprašanje, na katerega lahko odgovorimo s pridobljenim znanjem. Tako lahko okrog izziva oblikujemo kar celo učno uro zemljepisa, zgodovine ali slovenščine.

Poglavja

Poglavje 1: Je v Sloveniji več Zajcev ali Medvedov?

Za začetek se naučimo delati s programom Orange: postavljati in povezovati gradnike ter razumeti idejo izbiranja podatkov za naslednje gradnike v toku. Obenem spoznamo nekaj osnovnih gradnikov, ki jih bomo potrebovali kasneje.

Uporabljeni gradniki

Gradniki, ki jih potrebujemo, preberejo podatke, jih pokažejo v tabeli ali sliki in jih umestijo na zemljevid.

Branje podatkov

Gradnik Zbirke podatkov (Datasets) naloži podatke. V slovenski različici privzeto pokaže slovenske zbrike. Radovedni lahko izberejo drug jezik (ali vse jezike) in vidijo še kakšne druge podatke.

Gradnik Zbirke podatkov nalaga že pripravljene podatke s spletnega strežnika. Svoje podatke, recimo iz Excela, pa naložimo z gradnikom Datoteka (File).

Za prvo vprašanje potrebujemo tabelo Priimki po Sloveniji; naložimo jo z dvojnim klikom.

Tabela

Gradnik Tabela (Data Table) pokaže podatke, ki jih dobi na vhodu. S klikom na ime stolpca jih uredimo po vrednostih v njem; ponovni klik jih uredi padajoče. Če izberemo vrstice v tabeli, se pojavijo na izhodu.

Škatla z brki

Škatlo z brki (Box Plot) tule uporabljamo zgolj za urejanje priimkov po pogostosti in za izbiranje posamičnih priimkov. To ni osnovni namen tega gradnika, vendar je za našo rabo tule prikladen. Kaj z njim počnemo sicer, si lahko preberete v opisu gradnika.

V posnetku vidimo primer, ko je kot spremenljivka in kot skupina izbran Priimek. Tako lahko opazujemo pogostosti priimkov. Izvirni vrstni red je abecedni (le tisti, ki se začnejo s šumniki, so na dnu). Če želimo opazovati njihov vrstni red po pogostosti, pa obkljukamo "Uredi po pogostosti skupin".

Odgovor na naslovno vprašanje. V tem vzorcu podatkov je Zajcev nekoliko, a ne veliko več kot Medvedov. SURS pritrjuje: 1. 1. 2022 je živelo v Sloveniji 2246 Zajcev in 2146 Medvedov. Lovska zveza pa k slednjim dodaja še 1200 svojih.

Vrstice lahko izbiramo še z mnogimi drugimi gradniki, recimo s Tabelo. Za izbiranje glede na vrednosti ene ali več spremeljivk sicer uporabljamo Izberi vrstice (Select Rows)

Če kliknemo na posamični priimek, dobimo na izhodu vse osebe s tem priimkom. Tule smo kliknili KUHAR in gradnik pošlje na izhod vse Kuharje. Enako lahko delamo tudi, kadar namesto priimkov opazujemo občine.

Škatla z brki v resnici daje na izhod dve tabeli: v eni so izbrani podatki, v drugi pa vsi podatki z dodatnim stolpcem, ki pove, kateri med njimi so izbrani. Podatke o vhodnih in izhodnih podatkih vidimo v statusni vrstici. Tule piše, da ima prva tabela 610 vrstic (vse Kuharje, torej), druga 104 tisoč. Več informacij o vhodni ali izhodni tabeli dobimo, če nad temi številkami polebdimo z miško, in še več, če jih kliknemo.

Zemljevid

Zemljevid pričakuje podatke, v katerih vsaka vrstica ustreza neki lokaciji. Če se stolpca z zemljepisno širino in višino imenujeta širina in dolžina (ali latitude in longitude, lat in long ali kaj podobnega), ju bo zaznal sam, sicer pa moramo v gradniku sami, ročno izbrati stolpca, ki vsebujeta koordinate.

Kje najdeš Hozjana? Kot se naučimo v posnetku, uporabimo Škatlo z brki, da izberemo Hozjane in jih pošljemo v Zemljevid. Točneje, v Prlekijo. V katerih grmih se skrivajo Zajci, pa odkrijte sami. (Da, tudi Zajci imajo svoje mesto v Sloveniji in niso kar vsepovsod, tako kot kakšni Novaki.)

Rešitev naloge

Naloga sprašuje po najpogostejših priimkih v občini. Rešiti jo je mogoče na kup načinov, skupno pa jim je, da moramo nekako izbrati vse vrstice, ki se nanašajo na določeno občino. Tu bomo opisali le rešitev, ki sledi ideji iz posnetka: primere z določeno lastnostjo lahko izbiramo kar v Škatli z brki. Eno za drugo bomo povezali dve brkati škatli.

Prvo nastavimo tako, da kaže občine. Izberemo svojo, na primer Celje.

Če ne obkljukamo "Uredi po pogostosti", obdržimo izvirni, to je, abecedni vrstni red. Tako lažje poiščemo svojo občino. Samo tiste, katerih ime se začne s šumniki, so žal na koncu. Orange se slabo spozna na abecedo.

Prva škatla z brki bo tako poslala drugi škatle vse Celjane. To, drugo škatlo z brki pa nastavimo tako, da pokaže priimke. Obkljukamo "Uredi po pogostosti" in že vidimo: v Celju bomo največkrat naleteli na Krajnce, Kolarje in Zupance.

V Celju je torej veliko Krajncev. Več kot drugje? Ali pa jih je veliko po vsej Sloveniji? Kaj pa Kranjci? V kateri del Slovenije so šli oni? Le razišči, saj znaš!

Morda še beseda o interpretaciji. To, da je v Celju največ Kranjcev, še ne pomeni, da so Kranjci večinoma v Celju. Morda je Kranjc pač pogost priimek. Navsezadnje sta četrti in peti najpogostejši priimek v Celju Kovač in Novak, vendar vemo, da Novak nikakor ni "tipičen za Celje z okolico". Da bi ocenjevali tipičnost priimkov bi morali pogostosti priimkov na nekem področju primerjati s pogostostjo po vsej Sloveniji.

Poglavje 2: Komu so podobni Koprčani?

V drugem delu razmišljamo o tem, kako meriti podobnost občin glede na priimke, ki se pojavljajo v njih. Nato se naučimo, kako na podlagi tega združiti občine v gruče. Rezultat gručenja je drevo z učenim imenom dendrogram. Izvemo, kaj pomeni in se naučimo nekaj malega o njegovi uporabi.

V tej in naslednjih nalogah uporabljamo drugo zbirko podatkov, Pogostosti priimkov po občinah.

Uporabljeni gradniki

K prejšnjim gradnikom tule dodamo dva nova, povezana z razdaljami, poleg tega pa še gručenje in še eno različico zemljevida.

Računanje razdalj

Vrstice v naših podatkih ustrezajo občinam, v splošnem pa poljubnim drugim rečem – strankam trgovske verige, potresom v južni Italiji, primerom želene in neželene pošte ali koščkom genetskih zaporedij pajkov, najdenih v drvarnicah nedaleč od Pivke.

Pri analizi podatkov nas pogosto zanimajo podobnosti – ali, obrnjeno, različnosti – med temi rečmi. Navadno je preprosteje računati različnost, definicije različnosti pa si sposodimo pri matematikih, po zgledu katerih namesto o različnosti raje govorimo o razdalji.

Razdaljo je mogoče definirati na kup načinov: gradnik Razdalje (Distances) jih ima kar dvanajst. Katero izbrati, je odvisno od naših podatkov in namenov. Najpreprostejša je Evklidska razdalja; če si podatke predstavljamo kot točke na ravnini ali v prostoru (in, v splošnem, če je spremenljivk n, v n-dimenzionalnem prostoru), je Evklidska razdalja razdalja, ki bi jo namerili z merilom. "Normalizacija" pa pomeni, da spremenljivke predtem postavimo na isto mersko lestvico, tako da vrednosti vsake preslikamo v interval od 0 do 1.

Kaj pravi statusna vrstica? V gradnik pride tabela s 192 vrsticami, iz njega pa odide matrika razdalj velikosti 192×192.

Geometrijska razlaga: Evklidska razdalja gre naravnost, Manhattanska gre okrog vogalov, kot v mestih s pravokotnim tlorisom ulic, kosinusna pa opazuje, pod kakšnim kotom vidimo točki.

Druge razdalje imajo svoje specifične trike: Manhattanska se manj ozira na izstopajoče vrednosti, Mahalanovisova se obnese pri koreliranih spremenljivkah in Hammingova pri binarnih, Jaccardova pri spremenljivkah, ki označujejo pripadn... Pravzaprav nas tule niti ne zanima. Oprostite, ker sem načel temo. :)

Za naše podatke je najprimernejša kosinusna razdalja. Ta bo dve občini prepoznala kot podobni, če imata podobno mešanico priimkov, ne glede na to, da imata morda zelo različno število prebivalcev. Za razliko od nje bi Evklidska razdalja opazila predvsem razliko v številu prebivalcev.

Gradnik torej prejme tabelo podatkov in med vsakim parom vrstic (ali stolpcev, če bi ga nastavili tako, vendar ga ne bomo) izračuna razdaljo po izbrani definiciji.

Izhod iz gradnika ni tabela podatkov temveč matrika razdalj. Zato nanj ne moremo pripeti nobenega od gradnikov, ki smo jih spoznali v prvem delu, saj ti ne prejemajo takšnih vrst podatkov.

Matrika razdalj

Matriko razdalj pokaže istoimenski gradnik (Distance Matrix). V tej aktivnosti ga uporabimo zgolj zato, da ilustriramo, kakšno reč sestavijo Razdalje.

Vhod za Matriko razdalj je, no, pač matrika razdalj. Tabel, s kakršnimi smo delali v prejšnjem poglavju, ne mara.

Gradnik se trudi sam uganiti primerno oznako za vrstice in stolpce – v tem primeru imena občin. Če mu ne uspe, jo (spodaj levo) izberemo sami.

Celjski priimki niso zelo različni od hrastniških (razdalja je 0.378) (podobni so si celo bolj kot brezoviški in ižanski!). Prav nič pa niso podobni idrijskim (razdalja 0.793). Smiselno?

Gručenje

Gradnik Hierarhično gručenje (Hierarchical Clustering) prejme razdalje med občinami in jih na podlagi tega združi v hierarhijo.

Postopek deluje tako, da je v začetku vsaka občina gruča zase. Nato postopno združuje pare najbolj podobnih gruč, dokler ne dobi ene same gruče. Hierarhijo predstavi v obliki drevesa, ki mu rečemo Dendrogram.

Če v gručenju določimo spremenljivko za barvo, se ob oznakah pojavijo barvni kvadratki. Tule smo za barvo izbrali spremenljivko Pokrajina, da preverimo, ali se dobljene gruče ujemajo z "uradnimi" pokrajinami.

Detajl, na katerega moramo paziti, je razdalja med gručami: nastaviti jo moramo na Wardovo. Postopek sicer začne s posameznimi občinami, kasneje pa mora računati razdaljo med gručami, sestavljenimi iz več občin. Za razdaljo med njimi lahko vzame najbližji ali najbolj oddaljeni občini iz teh dveh grup, ali pa povprečno razdaljo. Navadno pa se najbolj obnese Wardova razdalja, ki temelji na razpršenosti gruč.

V posnetku vidimo, kako v gradniku izberemo kako gručo občin, da jih posredujemo naslednjemu gradniku, na primer zemljevidu. V kasnejših videih bomo spoznali še druge načine izbiranja gruč.

Gradnik lahko sprejme tudi dodaten vhod s podmnožico občin. Te označi z mastnim tiskom in polnimi kvadratki pred njimi.

Barvni zemljevid

Za prikaz podatkov, ki se ne nanašajo na točke na zemljevidu temveč na področja, na primer občine, je namesto običajnega primernejši barvni zemljevid (Choropleth Map). Tako kot običajni zemljevid zahteva stolpca s koordinatami; če ne prepozna njunih imen, ju moramo izbrati sami.

Z nastavitvijo Podrobnost določimo velikost področij. Privzeta vrednost (skrajno levo) predstavlja države. Da bomo videli občine, ga moramo povleči vsaj do sredine.

Ker je barvni zemljevid barven, mu moramo določiti še, na podlagi katere spremenljivke naj bo obarvan. Če nas zanima le, katere občine so izbrane, barva ni pomembna.

Če za barvo izberemo število oseb z določenim priimkom, vidimo koliko jih je v kateri od izbranih občin. Hozjani žarijo v kljunu Slovenije.

Rešitev naloge

Za odgovor na vprašanje zadošča povezati Zbirke podatkov, Razdalje in Hierarhično gručenje.

Gradnike je potrebno pravilno nastaviti.

V Zbirke podatkov naložimo Pogostosti priimkov po občinah (ne Priimki v Sloveniji).
V Razdalje izberemo kosinusno razdaljo.
V Hierarhično gručenje izberemo Wardovo razdaljo.

Nato v dendrogramu v hierarhičnem gručenju poiščemo svojo občino in razberemo podobne občine. Pri tem je pomembno, da sledimo strukturi.

Šentilju je najbolj podoben Benedikt, sledita pa Cerkvenjak in Sveta Ana. Dobje ter Bistrica ob Sotli in Kozje pa so iz popolnoma druge veje in so le slučajno narisani zraven Šentilja.

Poglavje 3: Saj Prleki so Prekmurci, a niso?

V tem delu izvemo, kako uporabiti hierarhično gručenje za sestavljanje določenega števila skupin in kako opazovati te skupine na barvnem zemljevidu.

Uporabljeni gradniki

Vse že poznamo. Nov je le način uporabe hierarhičnega gručenja.

Hierahično gručenje

Dendrogram kaže celotno hierarhijo, od posamičnih skupin do, na koncu, ene same. Tako pač teče združevanje, do konca. Na podlagi izgleda dendrograma se lahko odločimo, koliko gruč bomo obdržali. Navadno se, posebej, če uporabljamo Wardovo razdaljo, začnejo razdalje med gručami v nekem trenutku bistveno povečevati, kar opazimo po daljših črtah. S klikom v merilo nad dendrogramom "prerežemo" gručenje na tem mestu.

Če si želimo ogledati celoten dendrogram, ga lahko pomanjšamo, tako da potegnemo drsnik Povečava potegnemo levo. Glede na dolžine črt bi se lahko odločili za tri gruče. Kliknemo nekje pri 2.8 in tako postavimo prag na želeno mesto v dendrogramu.

Črto lahko ročno premikamo, tako da jo vlečemo okrog. Primer je v posnetku. Če se vnaprej odločimo za neko število gruč ali pa bi radi eksperimentirali z različnim številom gruč, pa lahko spreminjamo kar številko v nastavitvi Prvih N:.

Pri taki uporabi hierarhično gručenje vedno posreduje vse podatke, doda pa jim stolpec Gruča, ki vsebuje zaporedno številko gruče.

Barvni zemljevid

V barvnem zemljevidu kot Vrednost izberemo Gruča, pa bodo občine obarvane glede na gručo.

Rezultati niso popolni. Če naredimo štiri gruče, se Loška dolina se znajde v Podravju, Goriška Brda pa na Štajerskem. Gre za občini z malo prebivalci in, morda, tudi nenavadnejšimi priimki, zato ju je težko zanesljivo primerjati z drugimi in umestiti, kamor sodita. Tako pač je; kadar je podatkov premalo, postanejo stvari naključne.

Rešitev naloge

Delotok je preprost.

Prve tri gradnike nastavimo tako kot pri prejšnjem vprašanju: v Zbirke podatkov naložimo Pogostosti priimkov po občinah, v Razdalje ne pozabimo izbrati kosinusne razdalje, v Gručenju pa Warda. V hierarhičnem gručenju povlečemo črto, ki predstavlja prag tako, da dobimo 6 gruč ali pa, še preprosteje, nastavimo Prvih N: na 6. Nato v Barvnem zemljevidu poiščemo svojo občino in poimenujemo regije, ki jih najdemo v tej barvi.

Poleg Brd in Loške doline sta malo (vendar ne tako zelo) odrezana od svoje barve tudi Bohinj in Jesenice. Bogsigavedi, zakaj. Bohinj najbrž ni prav velik, Jesenice pa imajo zaradi železarske industrije morda sorazmerno malo avtohtonega prebivalstva. Tudi odgovor na vprašanje, zakaj je Piran rumen in ne oranžen, bi zahteval malo več raziskovanja.

Poglavje 4: Kdo največji v deželi je tej?

Za zadnji del nismo pripravili videoposnetka, pa tudi novih gradnikov ni. Tu le preverjamo, koliko smo se naučili.

Rešitev naloge

Na vprašanje najpreprosteje odgovorimo tako, da k Hierarhičnemu gručenju dodamo Tabelo.

V Hierarhičnem gručenju izberemo gručo, ki ji pripada naša občina.

Da izberemo gručo, moramo klikniti znotraj nje. V primeru na sliki smo kliknili malo desno, onstran črte od oznake C1. (Oznaka se seveda pojavi po izboru.)

Tabelo uredimo po stolpcu Površina, tako da kliknemo na ime stolpca.

Če smo iz Celja, je največja občina v naši, štajerski gruči Slovenska Bistrica.