Submitted by zslotyi on Wed, 07/01/2020 - 13:24

A tényt, hogy a világot jelenleg felrforgató koronavírust először egy gépi tanulási algoritmus szúrta ki, már több helyen megírták. Az algoritmus egyébként direkt erre a célra készült - arra, hogy víruskitöréseket, valamint az esetleges veszélyeket jelezze előre. 

A Wired cikket, amely először számolt be a hirtelen reflektorfénybe kerülő cégről és szoftverről egy részletes beszélgetés követte a TWIML AI podcaston, ahol a cég, a BlueDot alapítója Kamran Khan arról mesél, hogyan jutott arra a gondolatra, hogy céget alapítson, amely betegségek és potenciális járványhelyzetek után kutat a világ minden táján, és hogyan vezette ez az ötlet végül jelenlegi cégét, a kanadai BlueDotot odáig, hogy 2019. december 31-én, az állami és privát szektorbeli versenytársaikat hetekkel megelőzve, először riasztották a világsajtót és az érintett szakhatóságokat a koronavírus kapcsán.

 

Miközben a történet önmagában is érdekes, ezúttal egy kicsit más nézőpontból fogjuk megvizsgálni. Anélkül, hogy túl mélyen belemennénk a technikai részletekbe, megpróbáljuk lebontani a gépi tanulási algoritmus összetevőit, tágabb és általánosabb lehetőségeket keresve ahhoz, hogy mi szükséges egy sikeres AI modell konstrukciójához.

 

Szóval hogyan csinálták? Mit kerestek? Lássuk!

 

Először is, egy NLP-probléma,

Ahogy azt Karman Khan elmagyarázta, a BlueDot mechanikájának három alapvető eleme van, amelyek közül az első a megfigyelés. A cél egy olyan rendszer kifejlesztése volt, amely figyelemmel kísér és minden olyan eseményről szóló információt, amelyet akár közvetve akár közvetlenül járvány kitörésére utaló veszélyként lehet értelmezni.

 

Az algoritmus, amit erre kifejlesztettek automatikusan átvizsgálja a szakmai weboldalakat, fórumokat és más, az interneten elérhető információforrásokat, hogy ezeken a szájtokon mutat-e bármi egy esetleges járványra vagy akár talál-e egy kitörés előjeleként értelmezhető fenyegetéseket. 

 

Míg a tervezők úgy döntöttek, a közösségi médiát a túl nagy zaj miatt kihagyták az átvizsgált tartalmak közül, de még így is minden nap több mint százezer oldalnyi szöveget vizsgálnak át. Ha a hatalmas mennyiség nem lenne elég kihívás, tovább nehezíti a feladatot az a tény, hogy az alkalmazás ezt kb. 60 nyelven teszi meg.

 

Nos, természetesen ahhoz, hogy a gépi tanulási alkalmazások jól működjenek, rengeteg adatra van szükségük, ugye? Ennek ellenére egy ekkora mennyiségű adattömeg bonyolultsága, mennyisége, valamint az ebből adódó természetes nyelvfeldolgozási (NLP) probléma összetettség szinte hihetetlen.

 

"Soha nem tudtam, hogy létezik egy Anthrax nevű heavy metal együttes, mielőtt elkezdtük volna ezzel az NLP-alkalmazással dolgozni" - mondja Khan viccelődve, és a számítógépes vírusok korában csak azt feltételezhetjük, hogy a 80-as évek trash metal együttese nem a legnagyobb kihívás volt a felmerülő nehézségek között (ezzel együtt hogy lehet, hogy valaki nem hallott még az Anthraxról, de most tényleg!?) 

 

A BlueDot gyakorlatában ez az irdatlan méretű gépi tanulási algoritmus naponta körülbelül öt tartalomelemet választ ki illetve jelöl meg azzal, hogy a cég szakértőinek további elemzésre elküldi őket.

 

Ami elvezet minket a sikeres gépi tanulási egyik fontos jellegzetességéhez: bármennyire lenyűgöző a gép által végzett munka, a BlueDot alkalmazása nem száz százalékban automatizált. 

 

Inkább beszélhetünk egy hibrid módon kibővített döntési folyamatról, amelyben az algoritmus mindent elkészít és előkészít, ezáltal lehetővé teszi, hogy az szakértők (a BlueDot esetében több különböző szakterület avatott szakértői) belépjenek a folyamatba, és döntést hozzanak. Más szavakkal: az algoritmus elvégzi a mechanikus, repetitív, és nyers erővel elvégezhető munkát (százezrek közül választ ki körülbelül öt releváns tartalomelemet), majd udvariasan félreáll, csak hogy a szakértők a tudásukat már tényleg optimálisan a lényeges kérdésekre fókuszáltan tudják felhasználni.

 

A tényleges folyamat szemléltetésére: a koronavírus esetében az algoritmus azt szúrta ki, hogy Wuhan-ban ismeretlen eredetű tüdőgyulladással diagnosztizáltak néhány beteget. Az algoritmus azt is tudta, hogy a közelben található egy olyan piac, amin élő állatok cserélek gazdák. Mindez pedig a szakértők számára már elegendő információ ahhoz, hogy ha ez még önmagában nem járvány, akkor is egy lehetséges járvány tökéletes összetevői egytől egyig megtallhatók a szituációban. 

 

Ahogy később kiderült, sem az algoritmus, sem pedig a BlueDot szakértői nem tévedtek.

 

Másodszor, egy előrejelzési probléma

Tegyük fel, hogy a járványt sikerült észlelni, vagy legalábbis felkerült a radarra, mint egy olyan eseménysor, amit érdemes figyelemmel követni. 

Mi a következő lépés?

A BlueDot eljárásában a második lépés a vírus lehetséges terjedését előrejelezni és modellezni.

Oké, de hogyan?

A cégnek, amit ez kiderül két egymástól független, hatalmas adattömeg áll rendelkezésére információforrásként: hozzáférhetnek a (névtelenített) repülőjegy-értékesítési adatokhoz, és hasonlóképpen képesek kiértékelni (anonimizált és egyesített) mobiltelefon-helymeghatározási adatokat is.

A 21. századi társadalomban ez az információ elegendőnek bizonyul az emberek mozgásának előrejelzéséhez és így a vírus legvalószínűbb terjedési irányainak modellezéshez, legalábbis a legfontosabb útvonalak és tömegek vonatkozásában.

Különösen, mivel kétféle módon elemzik a légitársaságok adatait: egyrészt az egyes repülőgépek útvonalát (azaz a Tokiótól felszálló és Pekingbe érkező Boeing, majd Szöulba, majd Manilába halad) nézik meg, másrészt pedig utasadatokat, természetesen anonimizálva (azaz: a fickó, aki Pekingből LA-ba repül Dubajon keresztül).

Ezeket a puzzle-darabokat más releváns információkkal összekapcsolva, mint például a szóban forgó helyek időjárása, népessége és földrajza, egy gépi tanulási algoritmus már viszonylag nagy pontossággal képes előrejelezni annak valószínűségét, hogy a vírus hol és mikor fog legközelebb felbukkanni.

A modell sikeresnek bizonyult: a BlueDot hatékonyan megjósolta az első néhány várost, ahol a járvány jelentős méreteket öltött. Ahogy azonban a vírus terjed, úgy válik a modell egyre bonyolultabbá válik, annyira, hogy végül szinte az időjárás-előrejelzéshez kezd hasonlítani. A vírus valóban előrehaladott stádiumában a szakértők - az időjáráshoz hasonlóan - viszonylag pontos képet kaphatnak arról, hogy mi fog történni másnap, de az időben tovább haladva előre az előrejelzés pontossága már drasztikus mértékben csökken.

 

Végül pedig egy professzionális probléma

A BlueDot modelljének utolsó szakasza azzal kapcsolatos, hogy mi történik, amikor egy járvány kitörése várható az elkövetkező napokban egy adott városban. A cég szakemberei úgy találták, hogy a vírus elleni felkészüléshez a legjobb megoldás az időben történő tájékoztatás, különös tekintettel az állami egészségügyi intézmények, az egészségügyi dolgozók és az illetékes hatóságok tájékoztatása, felkészítése. Erre fejlesztettek ki egy figyelmeztető hálózatot, rendszert, amely felhívja a mindazok figyelmét felhívja a közelgő veszélyre, akiknek a leginkább szükségük van rá.

 

Jó választás! De mivel ebben a folyamat ettől a ponttól kezdődően már semmilyen módon nem kapcsolódik a gépi tanulás témájához, ezt a részt a profikra hagyjuk.

 

Végül még érdemes áttekintenünk a BlueDot modelljéből következő tanulságokat, amelyek a gépi tanulás gyakorlatilag bármelyik alkalmazási területén bevezethetők vagy megvalósíthatók. Íme:

 

  1. A rendszer nem működik teljesen automatikusan. Míg az alkalmazás sokat tesz, miközben több ezer és több oldalnyi tartalmat keres be a végén (és több nyelven is megteszi), néhány kulcsfontosságú döntést az emberek hoznak meg, a gépi feldolgozott adatokat kiegészítésként használva döntéshozatali folyamatok. Ha úgy tetszik tehát a rendszer nem egy egyértelműen gépi tanulási alapú döntéshozó rendszer, hanem egy segített (augmented) folymat.
  2. Ez egy hibrid rendszer. Bár az alkalmazás leglátványosabb része a gépi tanuláshoz kapcsolódik, az ML távolról sem fedi le az egész struktúrát.. A megoszlás előrejelzésére felépített architektúrák sok statisztikai modellezést tartalmaznak, és a folyamat záró stádiuma nem más, mint egy hivatásos egészségügyi egészségügyi szakértő munkája.
  3. A hibrid rendszerhez hibrid csapat szükséges. Noha az egészségügyi ellátással kapcsolatos fórumok és a repülőjegy-értékesítés hatalmas információinak feldolgozása jelentős informatikai hátteret igényel, ez az egyenlet csak egyik oldala. Orvosok, közegészségügyi szakemberek, statisztikusok, tervezők mind részt vettek a projekt kidolgozásában. Egy ilyen hibrid csapatban dolgozni nemcsak nagyszerű szórakozás. Ez az egyetlen módja annak, hogy egy ennyire komplex probléma megoldására hatékonyan szülessenek megoldások - a jelen esetben olyanok, amelyek többek között a gépi tanulási technikákat is alkalmaznak.