Google a publicat accidental 2.500 de pagini de documentație tehnică pentru motorul său de căutare. Cum funcționează algoritmul

Google a publicat accidental 2.500 de pagini de documentație tehnică pentru motorul său de căutare. Cum funcționează algoritmul

La sfârșitul lunii mai, documente interne Google au fost publicate în online, dezvăluind unele dintre principiile de funcționare ale algoritmului de căutare și ierarhizare a rezultatelor căutării. De exemplu, acum a devenit cunoscut faptul că acesta folosește datele Chrome pentru a clasa site-urile și pentru a compila „liste albe” de surse pentru evenimente individuale de știri, relatează site-ul rusesc independent Meduza, care a realizat un amplu articol pe acest subiect.

O săptămână mai târziu după scurgerea de date de la Google și publicarea documentelor, jurnaliștii au aflat despre posibile încălcări ale regulilor de securitate și confidențialitate a utilizatorilor care au avut loc la Google de ani de zile. Compania a fost nevoită să admită că toate datele scurse online sunt corecte.

Primele documente interne secrete au fost publicate pe 27 mai de Rand Fishkin, șeful SparkToro și expert în domeniul optimizării SEO. El a spus că a primit un e-mail la începutul lunii de la o sursă anonimă care pretindea că are acces la un număr mare de documente interne ale Google. Expeditorul a adăugat că autenticitatea documentelor a fost confirmată de foști angajați ai companiei, care i-au împărtășit și informații suplimentare legate de acestea.

Fishkin a vorbit cu sursa printr-un link video, a primit confirmarea necesară cu privire la acuratețea informațiilor și a fost de acord să le facă publice. De asemenea, a contactat un alt expert SEO, fondatorul iPullRank, Mike King, pentru a colabora la analiza documentelor. A doua zi după publicare, informatorul anonim a decis să-și dezvăluie identitatea și a publicat videoclipul pe YouTube. S-a dovedit a fi specialistul SEO și fondatorul EA Eagle Digital, Erfan Azimi.

https://www.youtube.com/watch?v=AEb8_rbfFVw
Declarația publică a lui Erfan Azimi

Rand Fishkin și Mike King aveau 2.500 de pagini de documentație internă API care a fost încărcată din greșeală în GitHub. Se pare că ea a fost acolo din 27 martie până pe 7 mai, timp în care Azimi a găsit-o. Informațiile disponibile în aceste document sunt tehnice și o mare parte din ele vor fi de interes în primul rând pentru experții SEO. Dar ele pemrit și publicului larg mai puțin avizat să afle puțin mai multe despre principiile motorului de căutare al Google.

Google alcătuiește „liste albe” de site-uri care au clasamente ridicate de căutare

De exemplu, se poate concluziona că Google alcătuiește în mod regulat așa-numitele „liste albe” de site-uri care au clasamente mai ridicate în rezultatele căutării. Resursele care nu se încadrează în ele, dimpotrivă, sunt retrogradate, iar utilizatorilor le este mai greu să le găsească atunci când fac o anumită solicitare. Fishkin notează că astfel de liste au fost folosite de cel puțin două ori: în timpul pandemiei și în timpul alegerilor din SUA.

În general, a devenit mai clar care parametri influențează cu adevărat căutarea. De exemplu, Google a negat că colectează date din Chrome pentru a clasifica site-urile web. Judecând după datele scurse acum, browserul este încă menționat în secțiunile dedicate rezultatelor căutării. Compania a negat, de asemenea, că factorii individuali, precum autorul conținutului, ar putea afecta rezultatele. Mike King, în analiza sa, notează că indicatorul EEAT, care ia în considerare și nivelul de expertiză al autorului, afectează în continuare clasarea site-urilor.

Experții identifică o serie de alți parametri care se reflectă în rezultatele căutării. De exemplu, este menționat sistemul NavBoost, care analizează clicurile pe baza geolocalizării și le împarte în mai multe categorii, printre care „bun”, „rău” și „lung”. Numele de domeniu, precum și recunoașterea online a mărcii, joacă un rol important și pot fi reflectate în rezultatele căutării. Există, de asemenea, un „sandbox” separat pentru site-urile noi și acestea sunt limitate în rezultatele căutării, deși Google a negat anterior și acest lucru.

Google a confirmat că documentele publicate din greșeală sunt reale

Nu se poate spune că informațiile publicate sunt complet neașteptate pentru experții SEO. Bănuiau deja unele lucruri. Dar, așa cum subliniază Rand Fishkin, o mare parte din ceea ce s-a scurs acum este în contradicție cu declarațiile oficiale pe care Google le-a făcut de-a lungul anilor. Și asta subminează încrederea în companie. Expertul speră că de acum înainte comentariile publice ale Google vor fi privite mai critic.

Google a refuzat să comenteze despre scurgerea de date timp de câteva zile, dar pe 30 mai, purtătorul de cuvânt al companiei, Davis Thompson, a confirmat pentru The Verge că documentele publicate din greșeală sunt reale. El a remarcat, de asemenea, că nu ar trebui să se facă presupuneri incorecte cu privire la funcționarea algoritmilor de căutare bazați pe „informații în afara contextului, învechite sau incomplete”.

La o săptămână după prima publicare s-a aflat despre o nouă scurgere de date. Pe 3 iunie, jurnalistul 404 Media Joseph Cox a anunțat că a primit o cantitate mare de date de la o sursă anonimă, în care a găsit dovezi ale numeroaselor încălcări ale regulilor de securitate a informațiilor și de confidențialitate a datelor.

Documentele conțineau informații despre mii de încălcări care au fost înregistrate sub formă de rapoarte interne între 2013 și 2018. Acestea includ probleme cu colectarea și procesarea datelor, erori ale angajaților, precum și vulnerabilități ale partenerilor terți ale căror servicii compania le-a folosit. Fiecărui astfel de incident i s-a atribuit un rating de prioritate în rapoarte, care a determinat cât de urgent trebuie abordată o anumită problemă.

Jurnalistul a aflat că în 2016, unul dintre angajații companiei a raportat că sistemele Google Street View descifrează și stochează plăcuțele de înmatriculare care sunt incluse în fotografie. De obicei, astfel de informații, precum și fețele oamenilor, sunt neclare, pentru a menține confidențialitatea. Raportul spunea că acest lucru s-a întâmplat neintenționat: algoritmul de identificare a textului din fotografie a început la un moment dat să citească plăcuțele de înmatriculare ale mașinilor, deși inițial sistemul a fost configurat în așa fel încât să le identifice și să le ignore. Ca urmare a erorii, compania a ajuns să aibă o întreagă bază de date de numere geolocate sau fragmente ale acestora.

Google a stocat și convorbiri ale minorilor

Un alt incident a implicat platforma educațională Socratic, pe care Google a achiziționat-o în 2018. S-a dovedit că peste un milion de adrese de e-mail au fost stocate în codul sursă al site-ului companiei timp de mai bine de un an (raportul spunea că pot fi accesate și adresele IP și geolocalizarea), inclusiv cele aparținând copiilor.

Este menționat și un alt caz care implică utilizatori minori. Într-o perioadă de timp nespecificată, Google a avut o bază de date cu înregistrări ale vorbirii a aproximativ o mie de copii: din anumite motive filtrul corespunzător nu a funcționat, așa că sistemul le-a înregistrat timp de o oră și le-a salvat. Aceste date au fost șterse.

Într-un text separat, Joseph Cox a spus că în 2017, unul dintre angajații contractuali ai Google a folosit drepturi de administrator pentru a obține acces la contul oficial al companiei de jocuri Nintendo. El a reușit să găsească un videoclip nepublicat al unui nou joc neanunțat și l-a împărtășit unui prieten, ceea ce a dus la o scurgere de informații. Vorbim despre jocul Yoshi’s Crafted World, lansat în 2019. Cu toate acestea, un raport intern al companiei afirmă că scurgerea ar fi putut fi „neintenționată”.

Reprezentanții Google au confirmat jurnalistului exactitatea informațiilor publicate. Ei au remarcat, de asemenea, că au revizuit fiecare raport intern și au luat o decizie adecvată cu privire la acesta. În unele cazuri, încălcările nu au necesitat deloc intervenție sau au fost detectate pe servicii terțe.

Joseph Cox a adăugat că cele mai multe dintre aceste incidente au fost rezolvate rapid și fiecare dintre ele individual ar putea afecta doar un număr mic de persoane. Totuși, el a subliniat că informațiile pe care le-a publicat sunt un bun exemplu despre cât de frivol tratează cele mai mari companii din lume datele confidențiale ale utilizatorilor.