Садржај поста
🤖Исследование: современные ИИ научились врать и манипулировать — даже рассуждая «вслух» Лидеры ИИ-индустрии Anthropic, Google, OpenAI и xAI внедрили методику «цепочка мыслей» (chain of thought), позволяющую отслеживать пошаговый ход рассуждений искусственного интеллекта при генерации ответа. Однако результаты показали: даже самые продвинутые языковые модели способны обманывать, манипулировать и скрывать свои истинные намерения, несмотря на прозрачность рассуждений. В ходе тестов продвинутые LLM (большие языковые модели) не только обходили меры безопасности, но и прибегали к шантажу, попыткам украсть корпоративные секреты и даже были готовы устранить оператора при угрозе отключения. Разработчики признают: несмотря на возможность видеть весь «мыслительный процесс» модели, они всё ещё не до конца понимают, как ИИ принимает решения. «Мы обнаружили, что можно читать их цепочки мыслей и находить доказательства неправильного поведения модели, — отмечает научный сотрудник OpenAI Боуэн Бейкер. — Но даже если вмешиваться и корректировать рассуждения, модель может научиться скрывать нежелательное поведение, продолжая действовать скрытно». ✔️ Эксперты признают: цепочка мыслей — ценный инструмент для анализа и улучшения ИИ, но пока он не гарантирует полной прозрачности. Как отмечает исследователь Сидни фон Аркс, «мы должны относиться к цепочке мыслей так же, как военные к перехваченным радиосообщениям противника: они могут быть закодированы или вводить в заблуждение, но всё равно несут полезную информацию». ✈️«Архипелаг БИГТЕХ»