Časoprostorové chování uživatelů - data od mobilních operátorů
Data si můžete prohlédnout v připravené mapové aplikaci nebo můžete využít možnost porovnání různých území formou dashboardů.
Další podrobnosti o tom, jak data vznikají, jak jsou vyhodnocena, jaké jsou technické detaily zpracování či jaká data můžete v aplikaci vidět, se dozvíte v dalších sekcích článku.
O projektu
Celý projekt byl realizován v rámci podpory Operačního programu Praha – pól růstu. Číslo projektu: CZ.07.1.02/0.0/0.0/17_046/0000631. Více informací o projektu se můžete dozvědět na stránkách projektu.
Proč se věnujeme lokalizačním datům?
Velká část úkolů spojených s plánováním města je ať už přímo nebo nepřímo závislá na pohybu lidí v prostoru. Nejčastěji se využívají různá statistická data například ze Sčítání lidu, domů a bytů, případně na průzkumová či modelová data. Tyto bohužel nejsou schopná zachytit časoprostorové chování dostatečně plasticky.
Všechny uvedené skutečnosti jsou důvodem, proč vzniknul projekt Lokalizační data mobilních operátorů pro plánování města. Ten byl realizován v rámci podpory Operačního programu Praha – pól růstu. Číslo projektu: CZ.07.1.02/0.0/0.0/17_046/0000631
Na projektech se podíleli různí dodavatelé:
Hlavním přínosem projektu je poskytnutí realistických a detailních informací o dynamice pohybu obyvatelstva v rámci Prahy a její metropolitní oblasti, stejně jako o strukturálních a časových charakteristikách využívání území. Jedná se tedy o komplexní systém, který analyzuje informace o území v delší časové perspektivě a umožňuje tak sledovat různé trendy.
Datové sady pokrývají období 12/2019–3/2022. Zpracovala se data od 2 mobilních operátorů: O2 Czech Republic a.s. a T-Mobile Czech Republic a.s.
Tato data územně zahrnují především Prahu a Středočeský kraj, v rámci úkolů souvisejících s mobilitou jsou však také zohledněny i zdroje a cíle mobility mimo toto primární území.
Vznik a zpracování lokalizačních údajů
Aby zařízení, jako je mobilní telefon, mohlo fungovat, musí se připojit k základnové stanici (označované dále jako BTS – Base Transceiver Station). Během doby, kdy zařízení komunikuje s konkrétní BTS, můžeme říci, že se zařízení nachází někde v oblasti pokryté danou BTS. Nejsme však schopni určit přesnou polohu zařízení.
Jakmile se zařízení v prostoru přemístí tak, že jej jiná BTS může obsluhovat lépe, je zařízení automaticky přiřazeno do území pod novou BTS.
V průběhu času BTS obsluhují mnoho různých zařízení. Jednotlivé záznamy jsou na straně mobilního operátora vyhodnocovány do BTS statistik pomocí vytvořených metodik. Výsledkem těchto analýz jsou anonymizovaná data, která obsahují souhrnné hodnoty za vybrané území a časovou jednotku.
Zpracování primárních dat je výhradně v kompetenci samotného mobilního operátora. Do prostředí IPR se dostávají data již primárně agregovaná – tedy anonymizovaná. Tato dále můžeme dále vyhodnocovat dle naší potřeby.
Pro zpracování a předání dat jsou dodržována následující pravidla:
- Nikdy se neurčuje přesná poloha zařízení, přiřazuje se pouze oblast pokrytí BTS.
- V žádném případě se nejedná o záznamy jednotlivých osob, vždy jsou předávány souhrnné a anonymizované informace.
- Proces anonymizace probíhá na straně mobilního operátora
Vyhodnocování dat
Základním principem vyhodnocování dat je využití tzv. časových oken, kdy je den rozdělen do tří základních pásem.
Pro každé okno se lokalita uživatele určuje na základě BTS, s níž zařízení uživatele strávilo nejdelší souhrnný čas. Tímto způsobem je uživateli pro každé časové okno přiřazeno jedno území, kde pobýval nejvíce času.
Výsledkem je první jednoduchý datový soubor, který zaznamenává počet uživatelů v jednotlivých územích během různých časových oken. Tato data nám umožňují posuzovat charakter území na základě toho, zda je zde v určitých časových oknech více uživatelů.
Můžeme tak například zjistit, jestli se v určitých místech vyskytuje víc uživatelů během klidného ranního okna, nebo spíše během denního okna. V některých případech mohou být maximální hodnoty více rozptýleny, což naznačuje větší variabilitu v počtu uživatelů.
Další hodnocení lze odvodit z území, která jeden uživatel navštěvuje v různých časových oknech. Pokud má uživatel stejné nejnavštěvovanější území jak v ranním, tak i večerním okně, lze předpokládat, že má k tomuto místu silný vztah. Pravděpodobně se jedná o místo, kde bydlí. Tuto skupinu pracovně nazýváme „hospodář“, což vyjadřuje silný vztah uživatele k místu, kde tráví klidový čas v ranní okně, a kam se večer vrací, aby tam strávil nejdelší čas v rámci večerního okna.
Pokud se naopak nejnavštěvovanější území ranního a večerního okna liší, lze říci, že uživatel byl v daných oblastech nejdéle přítomný, scénáře této situace však mohou být různé. Jedním z nich je například možnost, že uživatel večer navštívil kino a byl tak detekován v úplně jiném území, než kde žije. Jednou z dalších možností může být, že uživatel v pátek odjel na chalupu. Tento typ chování označujeme jako „nomád“ – nemůžeme zde přesně určit sílu vztahu uživatele k danému území, i když v něm strávil významný čas.
Každý uživatel je vyhodnocován každý den samostatně, bez ohledu na hodnoty z předchozích dnů. Výsledkem je tak statistika pro každý den zvlášť.
Další doplňující informace
Data pocházejí z provozu mobilních sítí dvou zapojených operátorů. Technologicky jsou data upravena tak, aby byly vyhodnocovány pouze ty SIM karty, které se nachází v mobilních telefonech. Tím je odstraněna tzv. technická SIM karta, která může být umístěna v různých zařízeních.
Požadavkem je, aby výstupní datové soubory charakterizovaly kompletní populaci v daném území, nikoliv pouze její část. Tento požadavek je realizován prostřednictvím robustní metodiky, která zahrnuje sadu koeficientů.
Základním faktorem je předpoklad, že počet vyhodnocovaných SIM karet v celé České republice je víceméně stabilní a měl by odpovídat očekávanému počtu uživatelů. Následně jsou řešeny lokální přepočty, které jsou ovlivněny různými podíly jednotlivých operátorů v konkrétních území.
Jako srovnávací referenční bod používáme dostupná data z Českého statistického úřadu (ČSÚ) o „Počtu obyvatel v obcích České republiky“ pro jednotlivá časová období v průběhu projektu. Tato data jsou doplněna o statistiku za městské části. Při vyhodnocování rozlišujeme české a roamingové uživatele. Údaje prezentované v aplikacích se zaměřují pouze na české uživatele.
Co nám říkají data – přítomní
Nyní se v každém území podíváme na ranní časové okno (0:00 – 4:59) a budeme sledovat počet uživatelů, kteří v daném území strávili nejdelší čas.
Jelikož se jedná o klidovou část dne, lze předpokládat, že v tomto časovém okně se lidé nejčastěji nacházejí na místě, kde přespí. Výjimku mohou tvořit například pracovníci na nočních směnách. Při analýze libovolného území můžeme sledovat, zda se počet uživatelů v ranním okně zvyšuje během pracovních dnů a poklesne o víkendu, nebo naopak zaznamenáme nárůst v sobotu.
Nelze tvrdit, že pokud určíme ve dvou dnech stejný počet uživatelů pro ranní okno, tak se jedná o stejnou množinu uživatelů. Avšak můžeme konstatovat, že dané množství uživatelů strávilo v těchto dnech nejvýznamnější čas v daném území.
Z tohoto hlediska je důležité pro jednotlivá území sledovat vliv sezónnosti, počasí, volných dnů a dalších faktorů. Na příkladu níže je vidět pokles v pracovních dnech zejména během prázdninových měsíců. Průměrné hodnoty v soboty však klesají a stoupají pozvolna, což odpovídá změnám počasí během roku.
Jiná území mohou naopak vykazovat opačné trendy ve stejných ukazatelích.
Ukazatele lze vzájemně porovnávat i v čase a vytvořit tak typologii území na základě jejich vývoje v čase. Můžeme například identifikovat místa, která jsou častěji využívána pro víkendovou rekreaci.
Co nám říkají data – bilance dojížďky a vyjížďky
Hodnotit území je možné nejen podle toho, kolik lidí se v něm nachází v ranním okně, ale také podle toho, kolik lidí tam dojíždí za prací, školou nebo jinými účely.
Druhá sada dat, kterou předkládáme, se zaměřuje na území v denním okně (5:00–18:59). Zkoumá tedy nejaktivnější část dne, kdy lidé vykonávají nejrůznější činnosti.
Každému uživateli je i v tomto okně přiřazeno místo, kde strávil nejdelší čas a lze ho tedy považovat za nejvýznamnější.
Zvolený princip vyhodnocení vybere jedno nejvýznamnější místo jako cíl dojížďky, i když uživatel může mít více takových míst. Zde používáme termín „hlavní dojížďka“ a „hlavní dojižďkový cíl“.
Při zkoumání konkrétního se zajímáme o počet lidí, kteří dané území opustili a odjeli jinam, kde následně strávili nejdelší čas v denním okně. Tuto skupinu nazýváme „vyjíždějící“ a v grafu je zobrazena růžovým sloupcem a negativní hodnotou.
Druhou skupinou jsou naopak lidé, kteří byli v ranním okně zařazeni v jiném území, ale do našeho území přijeli a strávili zde nejdelší čas. Tzv. „dojíždějící“ jsou zobrazeny modrým sloupcem a kladnou hodnotou.
Výsledná bilance vyjíždějících a dojíždějících je vypočítána jako součet záporných hodnot vyjížďky a kladných hodnot dojížďky. Tato bilance je zobrazena oranžovou značkou. Díky zvolené metodě můžeme jednoduše říct, že místo zobrazené na obrázku musí v denním okně obsloužit mnohem více lidí, než kolik jich tam je v klidové části dne.
Z časového hlediska můžeme hodnotit jednotlivé údaje samostatně. Můžeme například posoudit, jak se samotné hodnoty vyjížďky a dojížďky mění v průběhu času, ale také jaká je jejich celková bilance.
Na obrázku je ukázka pro území Prahy 1, kde je zřejmý významný vliv pandemie COVID-19 na sledované hodnoty v pracovních dnech od března 2020.
Pokud bychom to porovnali s průměrnými hodnotami pro sobotu, zjistíme, že celkový objem dojížďky je významně menší. Zároveň můžeme pozorovat odlišné trendy, zejména v měsíci prosinec, který pravděpodobně souvisí s předvánočními aktivitami.
V rekreační oblasti typu Slapy můžeme znovu zaznamenat významný vliv sezónnosti, i když se zrovna zaměřujeme na pracovní dny.
Co nám říkají data – směrovost dojížďky
Na další úrovni informací je možnost zjistit, odkud lidé dojíždějí a kam směrují, tedy identifikovat jejich hlavní dojížďkové cíle a zdroje dojížďky. První možností je tedy zvolit si požadované území a zobrazit vyjížďky z tohoto území. Na obrázku je vidět příklad vyjížďky z Prahy 4 do různých území. Celkový objem je vyjádřen jak intenzitou barvy přímo na mapě, ale i v grafu, kde jsou jednotlivé cíle zobrazeny podle objemu.
Druhou částí je možnost zobrazit si dojížďku do zvoleného území. Ta je opět rozdělená do jednotlivých území, odkud je tato dojížďka realizována. Na obrázku je zobrazena dojížďka do Prahy 4, kde je intenzita barvy použita k hodnocení která celkového objemu dojížďky mezi každým územím a zvoleným územím Prahy 4.
Tato data určují průměrnou dojížďku v pracovních dnech za období prosinec 2019. Metodika pro výpočet průměrné dojížďky stanovuje minimální podíl dnů, ve kterých musela být dojížďka/vyjížďka mezi danou kombinací zdroje a cíle dojížďky vykázána, aby mohla být započtena. Důvodem je vyhodnocení pouze pravidelné dojížďky mezi těmi zdroji a cíli.