На протяжении десятилетий эти цифровые боты незаметно собирали информацию из Интернета, передавая ее всем — от поисковых систем до моделей искусственного интеллекта. Но поскольку ИИ стал более мощным, ставки возросли. Теперь издатели проводят черту на песке, требуя контроля над своим контентом и бросая вызов амбициям Apple в области искусственного интеллекта.
Веб-сканер Apple, Applebot, изначально был разработан для поддержки таких функций, как Siri и Spotlight. Однако недавно компания взяла на себя еще одну важную роль: сбор данных для обучения базовым моделям искусственного интеллекта Apple, или тому, что компания называет «Apple Intelligence». Эти данные включают в себя текст, изображения и другой контент.
Что такое Robots.txt?
Robots.txt — это файл, используемый владельцами веб-сайтов для контроля того, какие боты могут получить доступ к их контенту. Издатели все чаще используют его, чтобы запретить ИИ-ботам очищать их веб-сайты для получения обучающих данных. Это связано с опасениями по поводу авторских прав и потенциального неправомерного использования их контента.
Хотя robots.txt — относительно простой инструмент, в эпоху искусственного интеллекта он стал более сложным. В связи с быстрым появлением новых агентов искусственного интеллекта издателям может быть сложно поддерживать актуальность своих списков блокировки. В результате многие обращаются к сервисам, которые автоматически обновляют файлы robots.txt.
Обратная реакция
Оказывается, некоторые средства массовой информации, такие как The New York Times, например, открыто критиковали подход Apple к отказу от участия. Газета, которая подает в суд на OpenAI за нарушение авторских прав, утверждает, что издателям не следует отказываться от участия с самого начала; вместо этого веб-сканерам необходимо получить разрешение на получение доступа к медиа-контенту.