Почему Ai‑Обзор Google Постоянно Ошибается В Простых Подсчётах Букв И Что С Этим Делать

TechLand 28 мая 2026 г. 0:17 82 Время чтения: 2 минут.

Почему Ai‑Обзор Google Постоянно Ошибается В Простых Подсчётах Букв И Что С Этим
Делать

Ключевые выводы
Что именно пошло не так в последнем AI‑обзоре?
Токенизация: почему модели «не видят» отдельные буквы
Почему «токен‑проблема» не так просто решить
История ошибок: от «советов есть камни» до «неправильных букв»
Как пользователям проверять ответы AI Overview
Что будет дальше: возможные пути развития AI Overview
Справка

Ключевые выводы

AI‑обзор Google периодически показывает неверные подсчёты букв в словах (например, «two Ps in Google»), потому что модель работает с токенами, а не с отдельными символами.
Токенизация и трансформер‑архитектура ограничивают способность LLM «видеть» отдельные буквы, что приводит к типичным орфографическим ошибкам.
Разработчики признают проблему и обещают поправки, но фундаментальное решение требует переосмысления токенов или гибридного подхода к обработке текста.

Google решила поставить генеративный ИИ в центр поиска, но пока его «мозг» всё ещё путает простые буквы. Мы посмотрели, почему это происходит, и что может измениться в ближайших обновлениях.

Что именно пошло не так в последнем AI‑обзоре?

Недавно Google выпустила новую функцию «AI Overview», которая должна быстро подводить итог запросу, показывая короткую справку. На первый взгляд всё выглядит здорово, но в реальной работе возникли курьёзные ошибки.

Например, система ответила на вопрос «Сколько букв «P» в слове Google?», заявив, что их две. Точно так же она подсчитала «один «r» в слове poop», но при этом написала «j‑o‑u‑r‑n‑a‑d‑i‑s‑m» вместо «journalism». В случае имени президента США она указала одну «P», но написала «t‑r‑p‑u‑m».

Эти ошибки не просто странные «фэйлы» – они демонстрируют фундаментальный лимит текущей архитектуры больших языковых моделей (LLM), на которой построена AI Overview.

Google уже признал проблему в интервью, сказав, что «подсчёт букв в словах – известная проблема LLM, над которой мы работаем». Что же стоит за этими простыми, но бросающими вызов ошибками?

Токенизация: почему модели «не видят» отдельные буквы

Большие языковые модели, включая те, что лежат в основе AI Overview, построены на трансформерах. Трансформер разбивает вводимый текст на токены – кусочки, которые могут быть целыми словами, их частями или даже несколькими символами.

Если токен представляет слово «google», модель хранит один вектор, описывающий смысл слова, но **не хранит** информацию о каждой отдельной букве. Поэтому, когда система пытается посчитать буквы, она обращается к статистическому представлению токена, а не к реальному набору символов.

«Токен‑база» делает LLM мощными в генерации связных ответов, но в то же время делает их «слепыми» к деталям орфографии. Это объясняет, почему запрос «сколько «r» в слове strawberry?», для которой модели часто дают ответ «один», а вовсе не «три».

Исследователь Мэтью Гуздаль из Университета Альберты подчеркивает: «Когда модель видит слово «the», у неё есть один вектор, описывающий значение «the», но «Т», «H», «E» как отдельные символы она не знает».

Почему «токен‑проблема» не так просто решить

Одно из предложений – использовать более «мелкую» токенизацию, когда каждый символ будет отдельным токеном. На практике такой подход резко ухудшает эффективность и увеличивает время обучения модели.

Шеридан Фойхт, аспирантка из Северо‑восточного университета, отмечает: «Невозможно придумать идеальный токенизатор – всегда будет компромисс между смысловым охватом и детализацией».

Это значит, что пока Google будет полагаться исключительно на текущий трансформер, подобные орфографические баги будут появляться время от времени. Одна из возможностей – гибридный подход: использовать традиционный «spell‑checking»‑модуль в сочетании с LLM, чтобы проверять ответы на простые подсчёты.

Пока что Google лишь обещает «исправить» проблему в будущих обновлениях, но не раскрывает, будет ли это переобучение модели или внедрение отдельного пост‑процессинга.

История ошибок: от «советов есть камни» до «неправильных букв»

AI Overview уже успел стать предметом шуток. При первом запуске система иногда приводила ответы из сатирических источников («Кушайте камни», «Поклейте клей на пиццу»). Затем в мае 2026 года официально зафиксировал ошибку, когда запрос «disregard» возвращал ответ «Understood. Let me know whenever you have a new prompt or question!», будто бы система «не поняла» запрос.

Новейшие ошибки с подсчётом букв лишь добавляют к репутации «глубоких, но иногда нелепых» AI‑обзоров.

Тем не менее, стоит помнить, что мощность этих моделей не ограничивается орфографией. Они способны писать код за секунды, находить решения сложных математических задач и формировать связные тексты – то, что обычный человек сделать за часы.

Поэтому, пока мы улыбаемся над «двумя P в Google», важно видеть общую картину: генеративный ИИ – это всё ещё эксперимент, требующий контроля и проверки.

Как пользователям проверять ответы AI Overview

1. **Сравнивайте с проверенными источниками** – если ответ кажется странным, откройте обычный поиск или словарь.

2. **Используйте двойной запрос** – сформулируйте вопрос по‑разному, чтобы увидеть, совпадают ли ответы.

3. **Не полагайтесь на цифры** – для подсчёта букв, слов или символов лучше проверять вручную или применять специализированные инструменты.

4. **Отмечайте ошибки** – если в интерфейсе есть возможность «сообщить об ошибке», используйте её – это поможет ускорить исправления.

5. **Следите за обновлениями** – Google регулярно публикует изменения в своих AI‑продуктах, и часто баги устраняются в новых версиях.

Что будет дальше: возможные пути развития AI Overview

Эксперты предполагают три основных направления:

Гибридный стек. Комбинация LLM с традиционными алгоритмами проверки орфографии и подсчёта символов.
Обучение на «тонких» токенах. Специальные модели, где каждый символ входит в токен‑словарь, но только для ограниченных областей (например, подсчет букв).
Контекстуальная валидация. Система «перепроверит» собственный ответ, сравнив его с простыми правилами (например, «если запрос о подсчёте, используем обычный скрипт»).

Любой из этих подходов потребует значительных ресурсов, но, как показывают текущие ошибки, инвестировать в точность стоит.

Справка

Google – американская технологическая компания, основанная в 1998 году Ларри Пейджем и Сергеем Брином. Сначала известна как поисковая система, сейчас предлагает облачные сервисы, Android, рекламные платформы и AI‑решения.

AI Overview – функция в поиске Google, предоставляющая короткие автоматические сводки по запросу, основанные на генеративных моделях ИИ.

Large Language Model (LLM) – большие языковые модели, обученные на огромных объёмах текста, способные генерировать связный текст и отвечать на вопросы.

Transformer – архитектура нейронных сетей, введённая в 2017 году, лежащая в основе большинства современных LLM, использующая механизм «внимания» для обработки контекста.

Matthew Guzdial – ассоциированный профессор Университета Альберты, специалист в области искусственного интеллекта и обучения машин, часто комментирует ограничения трансформеров.

Sheridan Feucht – аспирантка Северо‑восточного университета, исследует интерпретируемость LLM и проблемы токенизации.

AI Overview уже показывает, что генеративный ИИ — мощный, но несовершенный инструмент. Пока модель не научится «считать буквы», пользователям придётся проверять её ответы вручную, а разработчикам — искать более гибкие решения.

Интересно почитать :

Wi‑Fi отваливается сам по себе: скорее всего, дело в каналах

Кратко: В многоквартирных домах только 3 непересекающихся канала 1, 6, 11 в диапазоне 2.4 ГГц. Перегруженный канал приводит к обрывам, снижению скорости и росту пинга. Оптимальное решение – ручной выбор …

Хакер, взломавший электронную систему подачи документов Верховного суда США, получил условный срок

Ключевые выводы Николас Мур, 25‑летний житель Теннеси, признался во взломе электронной системы подачи документов Верховного суда США, а также сетей AmeriCorps и Департамента по делам ветеранов. За свои действия он …

Сколько электроэнергии потребляет крупная бытовая техника дома и как точно измерить расход

Кратко: Определить реальное потребление крупной бытовой техники можно умной розеткой или реле контроля. Средний расход: плита ≈ 100 кВт·ч/мес, холодильник ≈ 20 кВт·ч/мес, стиральная машина ≈ 18 кВт·ч/мес. Сократить затраты …

Blue Origin планирует возврат New Glenn в полёт после взрыва: что изменилось и как быстро?

Ключевые выводы Взрыв New Glenn 28 мая 2026 г. произошёл в задней части первой ступени, точный источник всё ещё неизвестен. Blue Origin переходит от транспортера‑эректора к крупному крана, что ускорит …

Геотермальная энергия получает новый импульс: как стартап Critical Energy меняет правила игры

Ключевые выводы Геотермальная энергия обладает потенциальным ресурсом более 42 ТВт, что вдвое превышает мировое потребление электроэнергии. Стартап Critical Energy привлек $19 млн посевного финансирования для разработки модульных турбин, специально адаптированных …

AI‑психоз в индустрии: массовые увольнения, рост DuckDuckGo и новые роботакси

Ключевые выводы Руководители, считающие, что ИИ заменит людей, часто недооценивают сложность реальных профессий. ClickUp сократил 22 % штата, заменив части сотрудников ИИ‑агентами – показатель растущего тренда автоматизации. Пользователи всё активнее …