Никаких трагедий: почему Яндекс.Дзен блокирует контент фондов

Яндекс Дзен ограничивает показы материалов с «трагическим контентом»: как работают алгоритмы блог-платформы?

Яндекс.Дзен не готов показывать трагический контент. Сервис ограничил показ материалов канала Фонда борьбы с лейкемией, однако потом признал, что это произошло по ошибке. Тем не менее ограничение на «трагические» и «токсические» публикации до сих пор действует. Журналист Теплицы Юлия Каленкова решила разобраться в формулировках, а также проанализировать международный опыт.

Что произошло?

3 апреля 2019 года сотрудница Фонда Елена Радченко на своей странице в Facebook сообщила об ограничении показов публикаций в Яндекс.Дзен – сервисе персональных рекомендаций от Яндекса. Это было «связано с использованием материалов, содержащих трагический контент». В комментариях к посту представители Яндекса признали ошибку, но подтвердили: «ограничения могут возникать в случае токсичного контента, попыток спекулировать на трагедиях».

сотрудница Фонда Елена Радченко на своей странице в Facebook сообщила об ограничении показов публикаций в Яндекс Дзене. Изображение: facebook.com.
Cотрудница фонда Елена Радченко на своей странице в Facebook сообщила об ограничении показов публикаций в Яндекс Дзен. Изображение: facebook.com.

Сервис не хочет, чтобы пользователи «спекулировали вниманием читателей, публикуя посты о трагедиях», так как «далеко не все хотят видеть публикации, вызывающие негативные эмоции». При этом в правилах указано, что такие материалы уместны, если в публикации есть «веское основание для трагических подробностей и обязательно дан контекст».

«Нам кажется, что угроза их жизни – достаточно веская причина, чтобы эти истории публиковать», – отметила Елена Радченко. Стоит подчеркнуть: в канале фонда были истории жизни и болезни с портретами героев, описание работы волонтеров, методические материалы. Подобный контент публикуется в других каналах, например, в дневнике онкопациентки «Рак не приговор».

Канал Фонда борьбы с лейкемией на Яндекс Дзене. Изображение: zen.yandex.ru.
Канал Фонда борьбы с лейкемией на Яндекс Дзен. Изображение: zen.yandex.ru.

Количество просмотров на канале фонда обычно колебалось от десятков до сотен тысяч, некоторые публикации набирали более миллиона просмотров (после блокировки охват упал до сотен просмотров). Всем, кто знаком с благотворительностью, известно: привлечь внимание к каждому сбору или просьбе о помощи критически важно, и счет порой идет на часы: «Чем быстрее мы соберем средства, тем больше шансов, что мы сможем спасти человеческую жизнь. Тем более мы не публикуем шокирующих фотографий, ужасных описаний, у нас работают очень хорошие журналисты, которые пишут грамотно, качественно и аккуратно», – прокомментировала ситуацию Елена Радченко в интервью «Таким делам».

К слову, статьи издания «Такие дела» (информационный портал благотворительного фонда «Нужна Помощь») также были ограничены к показу.

В требованиях к публикациям под шокирующим контентом подразумевается описание или изображение:

  • жертв катастроф и насильственных действий (людей и животных);
  • травм, болезней, уродств, трупов;
  • процесса родов;
  • насекомых и животных, чей вид вызывает отвращение.

Тематика «Для взрослых» – отдельный повод для дискуссии. Допускаются изображение предметов изобразительного искусства (скульптуры, живопись, графика), если контент «не содержит открытых интимных частей тела». Можно публиковать фотографии женщин в купальниках «при условии, что модель на фото не принимает вызывающие позы». К откровенному визуальному контенту относятся картины, выполненные в жанре гиперреализма, а также фотографии в жанре «ню».

Как фильтруется контент?

Информируя об изменения в правилах монетизации контента (апрель 2018 года), Яндекс Дзен привел примеры публикаций с ограничениями показов (снимается реклама):

  • «В Баку человек пытался совершить самоубийство»;
  • «СМИ: Пять человек погибли при пожаре в исправительном центре в Перу»;
  • «Под Нижним Новгородом будут судить акушера за смерть роженицы с ребенком»;
  • «Под Хабаровском нашли 26 пар отрубленных кистей рук не криминального происхождения».

«Мы считаем, что ни авторы, ни платформа не должны зарабатывать на трагических событиях, – заявил медиадиректор Яндекс.Дзен Даниил Трабун. Речь идет о материалах, в которых описываются трагические происшествия, катастрофы, террористические акты, военные действия, военно-политические конфликты, разные виды насилия, теории заговора и другие публикации на языке вражды и ненависти.

Теплица обратилась в службу поддержки Яндекс.Дзен, чтобы актуализировать информацию и разобраться со спорными формулировками. Выяснилось, что трагический и токсичный контент «попадают под разные определения». Однако разобраться с тонкостями авторам предлагается самостоятельно, изучая требования к публикациям. Все материалы проходят проверку системой. Чтобы реабилитировать канал после блокировки или среза публикаций, необходимо «исправить статьи, нарушающие правила платформы, написать минимум три новые статьи и сообщить службе поддержки о том, что канал готов к проверке».

Самым интересным оказался вопрос о работе фильтров контента. Оказалось, «в Яндекс Дзен нет списка стоп-слов. В анализе изображений участвует система и ее опция компьютерного зрения». Очевидно, что эта система должна самостоятельно «разбираться» с субъективными оценками «трагический», «токсический», «вызывающий» (поза). По словам службы поддержки, «все будет зависеть от полного содержания конкретного материала. Также точный ответ можно дать только на примере конкретной статьи, после того как она пройдет фильтры системы».

Лилия Земнухова социолог, научный сотрудник Социологического института РАН и Центра исследований науки и технологий Европейского университета в Санкт-Петербурге, оценила ситуацию следующим образом: «Чтобы сформировать базу данных, нужно сделать какую-то начальную разметку, прописать правила распознавания (текстов и изображений). Здесь на каких-то этапах участвует человек, который принимает решения, важные для последующей работы алгоритма. Даже если финального списка стоп-слов нет, есть границы того, что приемлемо для цензурирования, а что нет».

По словам эксперта, именно на эти границы ориентируется система распознавания – принять или отклонить, пропустить или отправить в бан. Учитывая, что точно не известно, как устроен «черный ящик» Яндекс.Дзен, можно предположить, что рамки определяются через тезаурус и семантику. Другими словами, кто-то принимает решения о том, что именно будет «зашито» в систему, и как она определяет, в чем именно искать смысловые единицы (словосочетания, предложения, абзацы или статья целиком).

«Если модель иерархизирована (например, сначала анализируются слова, потом контекст), то сбой может произойти на простых уровнях. То есть система может не распознать всего контекста статьи, забанив ее по признаку слова или предложения. Кроме того, с социальными вопросами машинное распознавание может работать еще хуже, поскольку вопросы обсуждаются действительно сензитивные и негативные с точки зрения тезауруса. Например, может повлиять даже и количественный фактор упоминания «негативных» маркеров», – объясняет Лилия Земнухова. По ее мнению, модерация в таких случаях необходима. Если границы и маркеры размечены не очень корректно или не оптимизируются с учетом найденных недочетов (за них в итоге Яндекс Дзен и приносил извинения), то накопленный эффект вызывает более грубые ошибки и баны.

Любые текстовые массивы данных (если только они не строго запротоколированы с самого начала) требуют постоянной доработки и выявления тонких различий, потому что математические правила работы с текстами упускают и контекст, и смыслы. Лилия Земнухова

Международный опыт

После массового расстрела в мечетях Новой Зеландии (напавший
транслировал убийства в Facebook, а соцсеть не успела остановить распространение записи) власти Австралии решили не только ограничить оборот оружия, но и определить наказания для соцсетей, которые не удаляют жестокий контент. Парламент принял закон о борьбе с контентом в социальных сетях, в котором демонстрируется жестокость. Речь идет о видеороликах, изображающих террористические акты, убийства, покушения на убийство, пытки, изнасилования или похищения. При обнаружении подобных материалов грозит штраф до 10,5 миллиона австралийских долларов (7,5 миллиона долларов США), или 10 процентов годового оборота. Руководители этих компаний или те, кто «предоставляет контент-услугу», могут быть наказаны тремя годами тюрьмы.

С начала 2019 года правительство Великобритании обсуждает связь роста самоубийств среди подростков с влиянием соцсетей. Власти намерены ввести новые требования для соцсетей, чтобы защитить несовершеннолетних от опасного контента в Интернете. Поводом для этого стало дело Молли Рассел. 14-летняя девочка покончила с собой в 2017 году. Спустя полтора года в интервью Би-би-си ее отец заявил, что Инстаграм и сервис Pinterest отчасти виновны в гибели его дочери. Главным аргументом стал контент, которым интересовалась девушка на этих платформах, а именно изображениями по теме самоповреждения (self-harm) и суицида. По его словам, частичная вина лежит не на самом Инстаграме, а на алгоритмах соцсети. Когда система понимает, что человеку нравится определенный контент, он начинает чаще предлагать схожий через ленту и хэштеги.

Практически в каждой стране действуют правила фильтрации контента. В Германии, например, Google, Yahoo! и другие сервисы подчиняются соглашению «Добровольный самоконтроль для мультимедийных сервис-провайдеров» (Voluntary Self-Control for Multimedia Service Providers). Список фильтров определяется Федеральным департаментом по медиаресурсам, вредным для молодежи. Однако ограничения, касающиеся исключительно блог-платформ и соцсетей, сейчас только формулируются.