Штучні сканери – це комп’ютерні програми, які збирають дані з веб-сайтів для навчання великих мовних моделей. Зі збільшенням використання пошуку штучного інтелекту та потреби в зборі навчальних даних в Інтернеті з’являється багато нових веб-скребків, таких як Bytespider, PerplexityBot, ClaudeBot і GPTBot.
До 2022 року в Інтернеті були звичайні сканери пошукових систем, такі як GoogleBot, AppleBot і BingBot, які протягом десятиліть дотримувалися принципів етичного збирання вмісту та планування.
З іншого боку, агресивні ШІ-боти не тільки порушують інструкції щодо контенту, але й погіршують продуктивність веб-сайтів, додаючи накладні витрати та створюючи загрози безпеці. Щоб протистояти цьому, багато веб-сайтів і контент-порталів впроваджують заходи проти скрапінгу або технології обмеження роботи ботів. За даними Cloudflare, провідного постачальника мереж доставки контенту, майже 40% із 10 найпопулярніших інтернет-доменів, до яких мають доступ 80% ботів ШІ, блокують роботи ШІ.
Відкрийте для себе історії, які вас цікавлять
Найвищий індійський технологічний орган Nasscom заявив, що ці сканери особливо шкодять видавцям новин, якщо вони використовують авторський контент без посилання на авторство. «Якщо використання захищених авторським правом даних для навчання моделі штучного інтелекту кваліфікується як добросовісне використання, це спірне», — сказав ET Радж Шекхар, керівник відділу відповідального штучного інтелекту в Nasscom. «Правова суперечка між ANI Media та OpenAI є тривожним дзвіночком для розробників штучного інтелекту, щоб вони дотримувалися законів про ІВ (інтелектуальну власність) під час збору навчальних даних. Тому розробники повинні проявляти обережність і консультуватися з експертами з інтелектуальної власності, щоб забезпечити відповідність даних і уникнути потенційних зобов’язань».
Рубен Кох, директор із технологій безпеки та стратегії компанії Akamai Technologies, яка займається доставкою контенту, сказав: «Збір даних створює значні накладні витрати та впливає на продуктивність веб-сайту. Він робить це, інтенсивно взаємодіючи з сайтом, намагаючись очистити кожен окремий фрагмент вмісту. Це призводить до штрафу за ефективність».
Згідно з аналізом 10 000 найпопулярніших інтернет-доменів Cloudflare, три боти ШІ мали найбільшу частку відвідуваних веб-сайтів – Bytespider, керований китайським TikTok (40,40%), GPTBot, керований OpenAI (35,46%), і ClaudeBot, керований Anthropic (11,17%). Незважаючи на те, що ці боти зі штучним інтелектом дотримуються правил, клієнти Cloudflare переважно блокують їх. Тим часом існує CCBot, розроблений компанією Common Crawl, щоб очищати Інтернет і створювати набір даних з відкритим вихідним кодом, яким може користуватися кожен.
Що відрізняє сканери ШІ
Штучні сканери відрізняються від звичайних сканерів: вони націлені на високоякісний текст, зображення та відео, які можуть покращити навчальні набори даних. Роботи на основі штучного інтелекту розумніші за звичайні роботи пошукових систем, «які просто сканують, збирають дані та зупиняються на досягнутому», — сказав Кох з Akamai. «Їхній інтелект використовується не лише для відбору даних, але й для їх класифікації та встановлення пріоритетів. Це означає, що навіть після того, як вони сканують, індексують і очищають усі дані, вони можуть обробляти те, для чого ці дані використовуватимуться», — сказав він.
Традиційно боти веб-скребків дотримуються протоколу robots.txt як керівного принципу щодо того, що можна індексувати. Традиційні роботи пошукових систем, такі як GoogleBot і BingBot, дотримуються цього і тримаються подалі від інтелектуальної власності. Однак було виявлено, що боти зі штучним інтелектом у багатьох випадках порушують принципи robots.txt. «Google і Bing не перевантажують веб-сайти, оскільки вони дотримуються передбачуваного та прозорого графіка індексації. Наприклад, Google чітко визначає, як часто він індексує певний домен, що дозволяє компаніям передбачати й керувати потенційним впливом на продуктивність», — сказав Ко. «З новими та агресивнішими сканерами, такими як ті, що керуються ШІ, ситуація менш передбачувана. Ці сканери не обов’язково працюють за фіксованим графіком, і їхня діяльність може бути набагато інтенсивнішою».
Кох попередив про третю категорію сканерів, які є зловмисними за своєю природою та зловживають даними для шахрайства. Згідно з дослідженням Akamai State of The Internet, понад 40% усього інтернет-трафіку надходить від ботів, а близько 65% з них – від шкідливих ботів.
Неможливо заблокувати їх усіх
Однак, за словами експертів, усунення сканерів AI не може бути остаточним рішенням, оскільки веб-сайти потрібно виявляти. Веб-сайти повинні з’являтися в результатах комерційних пошукових систем, бути відкритими та залучати клієнтів, якщо ШІ-пошук стане новою практикою пошуку, кажуть вони. «Підприємства будуть занепокоєні, якщо ми будемо блокувати законну діяльність сканування або роботу ботів, що приносить прибуток. Або ми допускаємо занадто багато шкідливих дій на нашому веб-сайті? Це дуже гарний баланс, вони повинні це розуміти», – вважає Кох.