L’impiego crescente di programmi automatizzati per l’addestramento dei modelli di intelligenza artificiale sta rischiando di sovraccaricare Internet. Secondo un recente rapporto pubblicato da Barracuda Networks, azienda specializzata in cybersicurezza, si sta diffondendo il fenomeno dei cosiddetti “bot grigi”.
Si tratta di software automatizzati che navigano nel web raccogliendo informazioni da siti e applicazioni, dati poi utilizzati anche per alimentare i sistemi di intelligenza artificiale generativa. Questi bot sono essi stessi basati su tecnologie di intelligenza artificiale, il che li rende molto più rapidi rispetto ai loro predecessori.
I bot grigi, dicono gli esperti di Barracuda Networks: “Sono in grado di estrarre grandi volumi di dati sensibili, proprietari o commerciali e possono sovraccaricare il traffico web e portare a un’interruzione delle operazioni”.
Dagli analisti è stato rilevato un picco impressionante, da parte di un singolo bot verso un’app mobile, oltre 500.000 richieste in un solo giorno. Sebbene questa attività non costituisca un pericolo diretto per gli utenti, può comunque rallentare notevolmente le prestazioni di Internet.
L’indagine ha evidenziato che, tra dicembre 2024 e febbraio 2025 due bot, in particolare ClaudeBot e Bytespider di TikTok, sono stati responsabili di milioni di richieste, con un picco che ha raggiunto i 9,7 milioni in un solo mese. L’analisi del traffico ha mostrato un’attività costante, con una media di circa 17.000 richieste l’ora per ciascuna app o sito coinvolto.
Le attività di estrazione delle informazioni viene definita “scraping” e si pone, per gli analisti, tra le operazioni dei bot “buoni” e quelle dei bot “maligni”. “I primi sono usati dai motori di ricerca oppure dal servizio clienti di alcune società” continuano da Barracuda. “I cattivi invece sono progettati per campagne online dannose, come la violazione degli account e per rubare dati personali o commettere frodi. Nello spazio tra di essi si trovano i bot grigi, progettati per estrarre grandi volumi di dati dai siti web, spesso per addestrare i modelli di IA generativa”.