Logo_now
Metodologie de cercetare a (dez)informării în spațiul online
Într-un spațiu online intens populat de informații mixte, demersurile ce țin de dezinformare devin parte integrată a nenumărate domenii și meserii. Fact-checking-ul este o practică ce vizează verificarea acurateței informației, și, pentru a ține pasul cu viteza de propagare a informației online, capătă diverse aplicații automatizate. Odată cu popularizarea acestor demersuri de automatizare, este esențial să punem întrebările corecte în raport cu ce limite și ce beneficii poate avea automatizarea pentru fact-checking. În mod tradițional, fact-checking-ul este un proces critic uman, dependent de context și nuanțe culturale diverse. Cu toate acestea, diverse instrumente de automatizare pot ajuta în procesul de fact-checking - atâta timp cât filtrul critic uman rămâne în prim-plan.

Introducere

Într-un spațiu online intens populat de informații mixte, demersurile ce țin de dezinformare devin parte integrată a nenumărate domenii și meserii. Fact-checking-ul este o practică ce vizează verificarea acurateței informației, și, pentru a ține pasul cu viteza de propagare a informației online, capătă diverse aplicații automatizate. Odată cu popularizarea acestor demersuri de automatizare, este esențial să punem întrebările corecte în raport cu ce limite și ce beneficii poate avea automatizarea pentru fact-checking. În mod tradițional, fact-checking-ul este un proces critic uman, dependent de context și nuanțe culturale diverse. Cu toate acestea, diverse instrumente de automatizare pot ajuta în procesul de fact-checking - atâta timp cât filtrul critic uman rămâne în prim-plan.

Propunem ca punct de plecare demistificarea utilizării instrumentelor tehnice pentru fact-checking. Ce sunt aceste instrumente și cum funcționează? La nivel tehnic, orice instrument de cercetare (social)media are ca scop colectarea de date (conținut, metadate, interacțiune etc.) pe care le analizează folosind inteligență artificială (IA) sau natural language processing (NLP = programe care procesează și analizează cantități mari de date în limbaj natural). Acest proces de automatizare a colectării și analizării de date poate fi un beneficiu major în condiții de utilizare optimă, oferind posibilitatea de a construi o imagine de ansamblu amplă a subiectului cercetat.

Cu toate acestea, niciun instrument de cercetare nu va oferi o imagine completă a situației. Orice proces de cercetare a veridicității informației este dependent de filtrul critic uman,  de interpretare de nuanță, de inferat asocieri. Cu alte cuvinte, nu există un instrument care face independent fact-checking, ci există instrumente care ajută la procesul de colectare și filtrare de informație. Acest proces are parte de și mai multe impedimente la specificitățile lingvistice - pentru limba română, modulele de IA și NLP sunt mult mai limitate, iar specificitățile discursive de pe platformele sociale sunt pierdute întru totul.

De ce este nevoie ca să poată fi fructificate beneficii și minimizate limitele? Răspunsul scurt este alfabetizarea media nu numai a jurnaliștilor, dar și a specialiștilor în comunicare din diverse domenii, precum și, în timp, a cetățenilor. Dezvoltarea de aptitudini tehnice trebuie încurajată, întrucât de aceasta depinde o utilizare facilă a proceselor tehnice de cercetare. În lipsa acesteia, accesul la orice instrument de cercetare nu va fi de niciun ajutor. Aceste aptitudini se obțin prin timp și exercițiu, motiv pentru care organizațiile interesate de dezvoltarea acestei zone trebuie să investească în pregătirea adecvată a echipei vizate.

Un prim pas în acest sens este înțelegerea indicatorilor social și mass media. De la mențiuni, impresii, reach și interacțiune, volumul interacțiunii, hashtaguri relevante, surse de trafic, ponderea conversațiilor, toate spun câte ceva despre conținutul care circulă pe social media. Importantă este corelarea lor corectă pentru a putea ajunge la concluzii relevante - de exemplu, ce comunități se formează în funcție de hashtag? Există acolo un lider de opinie? Etc. Pe lângă indicatorii social media, mai avem indicatorii micști. Aceștia sunt cei care țin fie de sursa informației - fie ea un autor, o platformă - fie de metadate (informații despre autor, dată, platformă, network de hyperlinkuri, adresă IP, trimiteri/citări de diverse feluri, număr de accesări/comentarii, parcursul utilizatorului pe website etc.).

Căutare Booleană

Un al doilea pas este familiarizarea cu o formulă des întâlnită pe platforme online - căutarea Booleană, sau Boolean Search. Aceasta este o sintagmă de căutare, aceasta permite o utilizare optimă a platformei de căutare utilizate prin folosirea unor operatori în combinație cu expresiile căutate. Astfel, operatorii Booleani AND, OR, NOT pentru a limita, extinde și defini rezultatele căutării. În cadrul acestui tip de căutare e important să avem în vedere specificitățile platformei și particularitățile căutării. Acest tip de căutare poate fi utilizată, cu ocazionale variații, atât pe suita Google, Meta, Twitter, YouTube, dar și în cadrul instrumentelor de căutare media, de social media monitoring/listening, de marketing etc. (gratuite și plătite) – Zelist, TrustServista, CrowdTangle, HubSpot, Hootsuite, Brandwatch etc.

Fiind o formulă de căutare versatilă, căutarea Booleană poate fi folosite în diverse moduri. Iată câteva exemple:

  •       O combinație de cuvinte cheie apropiate de subiectul urmărit și cuvinte cheie generice, care trebuie însoțite de alț termeni foarte specifici:

    Tarom OR @Tarom_RO OR #tarom OR (Tarom AND „linie aeriană”)

  •  O combinație a tuturor variațiilor ce descriu un fenomen și o localizare geografică:

     
    (coronavirus OR simptome OR simptom OR infectat OR depistat OR risc OR focar OR carantină OR febră OR tuse OR „simptome respiratorii” OR pacient OR SMURD OR „Matei Balș” OR DSP OR „direcția de sănătate publică”) AND Romania

  •  O combinație a două seturi de mesaje:

    („Simona Halep” OR #simonahalep OR @simonahalep OR @simona_halep) AND (publicitate OR advertising OR ad OR promo OR reclama OR promovează OR sponsor)

Putem concluziona că în cercetarea comunicării centrate pe implicațiile sociale ale informației avem de-a face cu trei elemente cheie: conținutul efectiv, platforma pe care este diseminat, și publicul care îl consumă. Instrumentele care utilizează automatizarea ne pot ajuta la crearea unei imagini de ansamblu și la cercetare longitudinală sau comparativă dacă sunt folosite corespunzător. Acest lucru depinde de ascuțirea deprinderilor ce țin de alfabetizarea digitală, care nu rezistă decât dacă sunt antrenate constant. Fără a înlocui filtrul critic și cunoașterea de fond, există multe beneficii în a căpăta deprinderi tehnice prin utilizarea instrumentelor de colectare și analiză de date cu scopul lărgirii competențele specifice domeniului.

Studiu de caz. Greva profesorilor

O modalitate eficientă de a vedea eficiența căutări Booleene în contextul monitorizării media este printr-un studiu de caz. O grevă generală de amploare națională s-a declanșat la final de mai în sistemul de învățământ din România. Multiplele proteste și manifestații a celor 200.000 de participanți - de la profesori la cadre didactice și auxiliare - au avut ca scop obținerea de majorări salariale de 25%. Deși greva s-a suspendat pe 12 iunie 2023 ca urmare a negocierii sindicatelor cu guvernul României, sentimentul general de nemulțumire a persistat.

Am stabilit deja că instrumentele de automatizare nu pot performa funcția de fact-checking pentru noi, însă de pot ajuta în a concepe o cercetare de ansamblu a subiectului vizat. Vom explora împreună în cele ce urmează, ce pași să urmăm pentru a concepe o cercetare folosind instrumente de pe piața românească și internațională.

  • Pasul 1: stabilirea obiectivului – ce vrem să aflăm? De unde pornim? Procesul de cercetare începe cu mult înainte de a formula sintagma de căutare Booleană. Informațiile de fond vor fi obținute de echipă din surse oficiale, insight-uri profesionale, căutare amănunțită de background făcută în prealabil. Pentru a urmări sistematic un exemplu, să presupunem că dorim să evaluăm discursul despre greva profesorilor din luna iunie. Pentru asta, obiectiv ar putea fi formular astfel:

          care este discursul (social)media despre greva profesorilor din perioada oficială a grevei? A fost, deci stabilit subiectul central, au fost indicate platformele de interes și perioada aleasă.

  • Pasul 2: stabilirea instrumentelor de căutare. Odată stabilit obiectivul, trebuie selectat instrumentul de colectare a datelor cel mai util, și trebuie avute în vedere particularitățile acestuia. Instrumentul este ales astfel încât să fie potrivit obiectivelor și bugetului organizației. Iată 3 scenarii potențiale:

    1. A. Organizația nu are buget de instrumente de cercetare și e interesată de a lua pulsul evenimentelor curente. La îndemâna oricui se află un instrument de cercetare deseori subestimat - Google Trends. Cu antrenament de utilizare, acest instrument se poate dovedi deosebit de util în a lua pulsul unui eveniment în raport cu populația generală.
    1. B. Organizația nu are buget de instrumente de cercetare, dar are acces la un cont de Facebook instituțional. În acest caz, CrowdTangle - un instrument de informații publice de la Meta care facilitează urmărirea, analiza și raportarea a ceea ce se întâmplă cu conținutul public din social media - e o alegere utilă.
    1. C. Organizația are buget de instrumente de cercetare iar obiectivul organizației este verificare social media și media tradiționale. Zelist este un sistem de monitorizare și măsurare a (social)media din România. Are acces la peste peste 41.000 de pagini de Facebook, peste 298.000 de conturi de Twitter, 2.800 de publicații online, peste 86.000 de bloguri și 119 din cele mai importante forumuri. Deși este în principal folosit pentru pentru companii comerciale interesate de măsurarea brandului propriu, impactul campaniilor și pentru benchmarking, orice organizație poate folosi modulele sale pentru cercetare media.
    1. D. Organizația are buget de instrumente de cercetare și este interesată doar de media online, cu precădere presă românească. TrustServista este o alternativă, acesta fiind o platformă software care poate determina automat originea, calitatea și gradul de încredere a conținutului online prin automatizarea a diverse funcții de verificare a sursei și conținutului articolelor.
  • Pasul 3: crearea formulelor de căutare. Pornind de la pretestare prealabilă, câte o sintagmă de căutare Booleană poate fi creată. Important de menționat este că există numeroase încercări până la realizarea formulei ideale. În plus, fiecare instrument va avea particularități de căutare, ca de exemplu lipsa anumitor operatori Booleeni. Mai mult, fiecare instrument conține diverse serii de filtre cu care utilizatorul trebuie să se familiarizeze înainte de a ajunge la varianta finală de căutare. În cazul de față, iată câteva variante:

     Google Trends - introducerea unei expresii de căutare sau a unui subiect de căutare singular, sau compararea mai multor expresii și subiecte: greva profesorilor

    CrowdTangle - crearea unei expresii de căutare și selectarea filtrelor necesare: (greva or grevei) AND (profesori OR profesorilor)

    Zelist - crearea unui grup de căutare ‘greva profesorilor’, unde introducem 2 expresii unibrand - fiecare cu o sub-temă în minte” (exemplu grevă, și proteste ca formă de exprimare): greva profesori OR greva profesorilor OR grevei profesorilor

    TrustServista - crearea unei expresii de căutare, și verificarea individuală rezultatelor: "greva profesorilor" OR "grevei profesorilor" OR (greva AND/+ profesori)

  • Pasul 4: analiza rezultatelor în baza funcționalității și filtrelor instrumentelor. Fiecare instrument va avea altă interfață, alte filtre și alt tip de rezultate. Scopul acestui pas este explorarea acestora și familiarizarea cu ceea ce oferă fiecare instrument. Iată câteva exemple pentru cazul de față: 

  • Google Trends va genera automat o vizualizare a evoluției expresiei sau subiectului căutat/e (fig. 1), urmând ca ulterior să ofere o vizualizare cu dispersiunea geografică a căutărilor (fig. 2), precum și liste cu căutări înrudite (fig. 3). După cum se poate observa în fig. 1, există posibilitatea căutării comparative, care ajută la identificarea de trenduri și corelații. Toate aceste elemente pot fi explorate interactiv pe site, sau pot fi descărcate în .csv și editate ulterior în Excel pentru noi inferențe. 

Picture3

Figura 1. Evoluția expresiei în timp în Google Trends

Picture2

Figura 2. Dispersia geografică a expresiei în Google Trends

Picture4

Figura 3. Căutări înrudite în timp în Google Trends

  •       CrowdTangle va genera o vizualizare a evoluției postărilor din expresia căutată în perioada delimitată, așa cum e exemplificat în fig. 4. Ulterior, va oferi, în ordinea presetată (în funcție de totalul interacțiunilor) postările identificate.

    Față de restul instrumentelor, CrowdTangle este utilizat la capacitate optimă doar atunci când setul de date este descărcat .csv și explorat în Excel (fig. 5). În acest fel, utilizatorul are acces la o colecție largă de metadate (41 de categorii, mai precis), din corelarea cărora pot fi extrase concluzii de cercetare. De exemplu, ce tip de postări atrag cele mai multe interacțiuni? Sunt anumiți actori care atrag mai degrabă sentimente negative decât pozitive? Ce categorii de actori au parte de cele mai multe distribuiri? etc.

    Deși setul de date este covârșitor (peste 6500 de postări în exemplul de față), e necesar să nu lăsăm cercetarea la nivel de corelat coloane. O modalitate utilă de a aplica o variantă calitativă de căutare este selectarea, pe baza unor criterii predefinite (i.e. postări sau actori care atrag cea mai mare interacțiune; postări sau actori care atrag cele mai multe distribuiri; postări tip poză versus postări tip live; etc.) unui număr de postări care pot fi evaluate manual. Astfel, narațiunile și diversele nuanțe pot fi identificate și analizate, și noi concluzii pot fi trase.

Picture5

Figura 4. Interfața de căutare CrowdTangle.

Picture6

Figura 5. Spreadsheet export CrowdTangle

  •      Zelist, meniul ‘sumar’ indică un total de peste 57.000 d e apariții în media și social media, dintre care cele mai multe în presă (peste 31.000), apoi în social media (peste 22.000, dintre care aproape 20.000 pe Facebook și aproximativ 300 pe TikTok), urmate de TV (peste 3.000) și radio (400). Dacă ne uităm la fig. 6, vedem că presa și Facebook au generat majoritatea conținutului colectat de instrument. Însă, comparând cu fig. 7, vedem că TikTok are un impact deosebit de puternic ca atracție de interacțiune, adunând aproape un sfert din totalul acesteia cu doar approx 300 de postări.

    Continuând explorarea posibilităților Zelist, putem vedea exact care au fost cele mai influente mențiuni. În cazul de față, primele 3, și multe alte postări cu cel mai mare impact sunt videouri de pe TikTok ale unui deputatul european USR. În topul celor mai influente mențiuni se numără și videouri distribuite pe Facebook cu conținut conspiraționist, precum și mesaje de susținere pe Facebook din partea liderului AUR.

Picture6

Figura 6. Număr de apariții pe tipul sursei pentru expresia de căutare pe parcursul ultimei luni

Picture6

Figura 7. Impactul tipului de sursă pentru expresia de căutare pe parcursul ultimei luni

  •      TrustServista oferă alt set de insight-uri ca urmare a agregării celor approx. 2500 articole identificate în urma căutării. Calitatea conținutului este cotată ca fiind preponderent ridicată și medie, iar sentimentul împărtășit este în mare parte între negativ și neutru - fig. 8. Putem deduce că, deși conținutul este mixt, se poate identifica un trend - framing critic la adresa consecințelor politice asupra profesorilor și studenților.

    TrustServista oferă o analiză automatizată a fiecărui articol, atribuind scor de încredere bazat pe analiză de surse, de conținut și de potențial de clickbait (exemplu în fig. 9-10). Cu toate acestea, automatizarea nu este întotdeauna totuna cu validitatea - de exemplu, agregatoarele de știri vor avea mereu un scor mai scăzut de încredere din cauza sursei. Este, deci, de datoria echipei de cercetare să verifice dacă scorul atribuit automat este, într-adevăr, valid.

Picture8

Figura 8. Distribuirea calității conținutului și a sentimentului

Picture9
Picture10

Figurile 9-10. Exemplu de analiză articol (TrustServista)

  • Pasul 5: formularea concluziilor în baza analizei surselor de date utilizate, plus filtrului critic jurnalistic sau profesional. În cazul de față, se poate nota un context general caracterizat de lipsă de încredere în instituții publice, existența unor nemulțumiri vechi generalizate, precum și lipsă de alfabetizare media și de pregătire de a naviga discurs politic în media, posibilitatea de apariție lideri de opinie și politici problematici prin viralizare, proliferarea pseudo-informării atât online cât și în media mainstream. Interesul pentru grevă este cel mai intens la declanșarea grevei, urmând o scădere a acestuia până la suspendarea grevei. Subiectul reia amploarea la începerea discuțiilor despre consecințele grevei asupra examenelor și verificărilor de final de an. Vedem cum platformele de social media sunt un mediu propice pentru viralizarea și amplificarea dez/informării, dar și cum se conturează politizarea în contextul desfășurării acestui eveniment.

Concluzii generale

Instrumentele tehnice utilizate corespunzător ne pot ajuta la crearea unei imagini de ansamblu și la cercetare longitudinală sau comparativă. Desigur, reiterăm că instrumentele tehnice nu înlocuiesc filtrul critic – din contră, trebuie abordate critic. După cum am observat și în studiul de caz, reușita fiecărui pas rezidă în abilitatea cercetătorului de a infera critic contexte, filtre, date, evenimente etc. Nu este întâmplător că proiecte de cercetare de acest tip au loc, de obicei, în cadrul unor echipe de experți cu background mixt și complementar.

Revenind la o observație anterioară un instrument de cercetare de orice fel va acoperi un anumit tip de conținut, de pe o anumită platformă, populată de anumite categorii de public. Astfel, niciun instrument nu poate oferi o imagine globală comprehensivă, sau una care să poată fi generalizată către alte categorii de populație. Acest proces presupune ascuțirea deprinderilor ce țin de alfabetizarea digitală, care nu rezistă decât dacă sunt exersate constant. După cum putem observa din procesul de colectare și interpretare a datelor, există numeroase beneficii în a căpăta deprinderi tehnice prin utilizarea instrumentelor de colectare și analiză de date cu scopul lărgirii competențele specifice domeniului.

Best practices - Maldita, ES. Crossover, BE

Un demers valoros este urmărirea organizațiilor care contribuie la profesionalizarea fact-checking-ului și a metodologiilor asociate, atât în domeniul jurnalistic, cât și al cercetării societale mai largi. Două astfel exemple de best practices sunt oferite de organizații precum Maldita.es și Crossover.

Maldita.es este o platformă jurnalistică independentă non-profit axată pe controlul dezinformării și al discursului public prin tehnici de verificare a faptelor și de jurnalism de date. Aceștia au 3 mari obiective

      monitorizarea și controlul discursului politic și promovarea transparenței în instituțiile publice și private

      lupta împotriva dezinformării prin verificarea minuțioasă a informației

      promovarea educației media și a instrumentelor tehnologice pentru a crea o comunitate conștientă care să se poată apăra de dezinformare și minciună în toate domeniile.

Echipa Maldita a dezvoltat numeroase metodologii de cercetare, împărțite pe diverse departamente. Astfel, în prezent organizația este împărțită în proiecte de nișă care vizează teme și publicuri specifice, ceea ce le permite să ajungă la diferiți utilizatori și să le integreze interesele de-a lungul fiecărui proiect în parte. Aceste proiecte sunt:

      Maldita Hemeroteca: analizează răsturnările de situație politice adresându-se direct politicienilor pe rețelele de socializare și la conferințele de presă cu schimbările lor de criterii pe teme specifice.

      Maldito Bulo: se evidențiază ca punct de referință spaniol în lupta împotriva dezinformării, prin intermediul unei comunități constituite care ne raportează ceea ce devine viral în fiecare moment prin intermediul rețelelor sociale și al serviciului de WhatsApp. Scopul Maldito Bulo este de a face ca informația dezmințită să fie la fel de virală ca și dezinformarea însăși, de aceea am creat un format de imagine care este ușor de partajat și de publicat direct pe rețelele sociale.

   Maldita Ciencia: acesta este proiectul de diseminare și popularizare a științei și vorbește despre progresele științifice, sănătate, nutriție și dezinformare pseudoștiințifică, adresându-se publicului într-un limbaj simplu și la obiect.

      Maldito Dato: e proiectul privind datele și transparența. Legea transparenței din Spania este destul de nouă (2013) și, prin urmare, cetățenii nu profită încă la maximum de ea. Prin intermediul acestui proiect e facilitat accesul la proceduri ce servește drept îndrumare de specialitate în adresarea întrebărilor către administrații. Există o interfață și o bază de date în care comunitatea poate interacționa cu experții organizației. În plus, comunitatea e ajutată să înțeleagă anumite probleme sociale și politice prin oferirea unui context generat de analiza datelor în moduri inovatoare.

Crossover, Belgia, este o platformă similară în obiective cu Maldita.es. Organizația urmărește următoarele elemente:

●  Monitorizarea diverselor platforme sociale, detectarea dezinformării emergente în limbile franceză și olandeză, evaluarea impactului acesteia și analiza instigatorilor, actorilor, narațiunilor și țintelor. Acest lucru va implica aplicarea platformelor de jurnalism de investigație, tehnici de investigare a surselor deschise (OSINT) și analiza rețelelor sociale, pentru a identifica, descoperi și investiga campaniile și rețelele de dezinformare din Belgia, dar și din Franța vecină.

●  Dezvăluirea în timp util a campaniilor de dezinformare și realizarea unui program bogat de activități de comunicare publică. În special, acest obiectiv include crearea unui site web dedicat proiectului în limbile franceză, olandeză și engleză, precum și publicarea la scară largă și cu impact puternic a rezultatelor investigației prin intermediul presei naționale și regionale, EDMO și a altor numeroase canale de diseminare. Acest lucru va fi completat de evenimente, webinarii, buletine informative, campanii în rețelele sociale și alte activități de diseminare.

●  Desfășurarea de activități de alfabetizare mediatică și informațională la nivel național/regional în limbile franceză și olandeză. În special, vor fi organizate materiale și campanii de educație mediatică și informațională orientate către cetățeni și elevi, completate de module și evenimente pentru jurnaliști și formatori MIL. CrossOver va crea, de asemenea, versiuni localizate ale materialelor MIL existente produse de EDMO, precum și va contribui cu noi materiale MIL orientate către cetățeni în franceză și olandeză pentru EDMO.

CrossOver urmărește și măsoară influența algoritmilor de recomandare a conținutului în social media din Belgia, expunând modul în care aceștia pot duce la dezinformare și dezinformare. Monitorizăm, investigăm, expunem și răspundem la răspândirea de conținut dubios și nefast atât în franceză, cât și în olandeză, pe Youtube, Twitter și nu numai. Acest proiect reunește EU DisinfoLab, Apache, SavoirDevenir și Check First. Grație experienței și specialității fiecărui membru, consorțiul aduce o abordare coerentă a problemei dezinformării rampante în limbile franceză și olandeză. Procesul prin care organizația își desfășoară activitatea e ilustrat în fig. 11.

Picture11

Figura 11. Procesul organizației Crossover