Deep Seek — китайская нейросеть, обвалившая акции ChatGPT
Как скачать и пользоваться в России? Что она умеет и какие отличия?

Что такое DeepSeek?

В то время как сомневающиеся скептики, упорно верящие, что ИИ останется лишь суррогатом сети, в Китае небольшая компания сделала существенный шаг вперед. Они разработали превосходную языковую модель логического мышления, сравнимую с GPT-OpenAI o1, всего за $6 млн, а это малая толика заработка инженеров по ИИ в Кремниевой долине. Более того, она остается открытой для всеобщего доступа: самая дорогая модель ChatGPT стоит $2,50 за проработку 1 млн токенов, а DeepSeek — $0,14.

VPN не требуется для доступа к API, и стоимость его гораздо ниже. DeepSeek добилась успеха благодаря оптимизации аппаратного обеспечения и возможности самообучения модели.

Естественно, что эта весомая вспышка создала состояние паники в Кремниевой долине: как могло получиться, что у Китая получилось обогнать США и выйти на передовые позиции, а это значит, что от технократов вроде Илона Маска наверняка польются мегадолларовые вложения, чтобы победить в этой гонке.

Кто на самом деле создал DeepSeek?

История DeepSeek началась с 2021 года, когда Лян Вэньфэн, учредитель хедж-фонда High-Flyer, закупил впрок 10 000 графических процессоров Nvidia. В первое время, даже работая по анализу рыночных отношений и ситуаций, они в большинстве своем большую часть времени простаивали, что навело Ляна на мысль озадачить их чем-то более существенным — в частности, создать AGI. К 2023 году в High-Flyer появилось подразделение Deepseek, направленное на разработку ИИ. Основной стратегией стала ставка на AGI с помощью денег хедж-фондов. Сотрудники спали около 4 часов в день, практически не покидая место работы, которой уделяли 18 часов, но их трудовые усилия щедро оплачивались.

Отличия от ChatGPT и других нейросетей

Что у Deepseek в итоге?

  1. Революция в архитектуре, так как привлечен метод Multi-head Latent Attention (MLA), что дает влечет 90-процентное снижение затрат на обучение.

  2. Модель MoE: при 236 млрд параметров DeepSeek-V2 стоит сравнительно мало. На сэкономленные деньги Deepseek приобрел новые GPU.

  3. Благодаря усиленному обучению получился GPT-4, который по стоимости дешевле на 95%. Обучение осуществлялось на графическом процессоре H800 в течение 2,788 часов. За данный промежуток времени было обработано токенов порядка 14,8 триллиона, что удваивает результаты V2. Весь процесс обучения обошелся примерно в 5,57 млн долларов.


Бенчмарки DeepSeek и больших языковых моделей

Бенчмарк — стандартизированный набор заданий для нейросети. Это и понимание речи, и разумность, и способность рассуждать. Тесты на академические общие и специализированные знания. С помощью математических бенчмарков исследователи сравнивают LLM между собой, проводят обучение и оценивают, насколько «умнее» стала новая версия большой языковой модели.

В чём секрет успеха?

Впечатляющий результат вышел с версией на 2 000 GPU от 100 000 графических карт, наиболее часто используемых компаниями xAI и OpenAI с целью ИИ-обучения. А успех DeepSeek напрямую зависит от эффективного слияния “железа”, программного обеспечения и алгоритмов.

Стоимость Deep Seek в мае 2024 года ошеломила рынок: 2 юаня за млн токенов. 
Сеть мгновенно заполнили жалобы пользователей на предвзятость DeepSeek: не отвечает на вопросы о Тайване и не пишет о Си Цзиньпине. 
Также и милая история о возможности мелкой компании достичь такого мощного удара по возможностям и стоимости разработок в области ИИ приводит к определенным сомнениям. Возможно, такой прорыв произошел благодаря помощи верхних эшелонов  Китая.
Цукерберг на сайте в Facebook* объявил о планах своей компании в условиях превосходства DeepSeek над LLama, так как Deepseek-V3 уже впереди Llama-4 от Meta* в различных тестах.

Модель Арена-Хард АльпакаEval 2.0
DeepSeek-V2.5-095 76.2 50,5
Qwen2.5-72B-Instruct 81.2 49.1
ЛЛаМА-3.1 405Б 69.3 40,5
ГПТ-4о-0513 80,4 51.1
Клод-Соннет-3.5 -1022 85.2 52.0
DeepSeek-V3 85,5 70.0

Источник: https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file

AI-помощник от Meta

В 2025 году Meta готовится выпустить AI-помощника, способного обслуживать свыше миллиарда пользователей, обновить Llama 4, сделав его конкурентоспособным, и разработать «инженера AI», который занимался бы новыми тенденциями. По сути, Цукерберг  считает, что этот год станет решающим для AI.

Для реализации этих амбициозных планов Meta возводит масштабный центр обработки данных. В 2025 году компания планирует еще подключить мощности для вычисления и около 1,5 млн графических процессоров. Это будет возможно при инвестициях порядка $60-65 млрд и значительном увеличении числа сотрудников.

DeepSeek v3 в 3 раза быстрее!

Ученый-информатик Ян Лекун увидел успех Deepseek в применении открытого исходного кода и изящного акта неповиновения уже существующей разработке ИИ, хотя он не признал признак доминирования Китая в этом прорыве.
Что касается модели, размещенной на Github, размещенной на архитектуре Mixture-of-Experts (MoE) с 671 млрд параметров, из них для каждого токена в активе — 37. Это существенно превалирует над V2, у которой 236 млрд параметров, из них при выводе активен лишь 21 млрд.

У V3 — впечатляющая скорость обработки: за секунду — 60 токенов , что в три раза быстрее более ранней версии.
Инженеры включили методику постобучения, взяв за основу «DeepSeek-R1», чтобы решались сложные задачи по разработке логики. При тестировании бенчмарков получилась высочайшая результативность.

Источник: https://www.gocodeo.com/post/gocodeo-deepseek

Сколько стоит?

Тесты по V3 сигнализируют, что DeepSeek показывает результаты, ничем не уступающие доминантным моделям:

Benchmark DeepSeek v1

Источник: https://arxiv.org/html/2501.12948v1

Причем DeepSeek выигрывает перед ними наилучшим ценовым и качественным состоянием. До 8 февраля стоимость API останется прежней, затем цена изменится, но не кардинально.

Модель вышла с лицензией Deepseek, что гарантирует безвозмездную лицензию для авторских прав и патентов. Можно использовать эту модель в предпринимательских целях. Важно: нельзя использовать военным и юристам.

Итак, китайский стартап показал, что важные разработки вполне себе могут быть бюджетными, в отличие от мегадолларовых вложений лабораторий AI. В плане у Deepseek — улучшить модельную архитектуру. Остается вопрос о способности DeepSeek создать AGI. Открытость модели сможет ускорить начатый процесс. Компания уже заявляет о  разработке AGI. 

Meta* (Facebook, Instagram) на территории Российской Федерации запрещены Законом “О СМИ”

Денис Димитров — об искусственном интеллекте

Нейросеть — это в первую очередь помощник человека. Технологии искусственного интеллекта дают возможность автоматизировать рутинную часть интеллектуального труда человека, каким бы этот труд ни был.
Денис Димитров
Российский специалист по анализу данных, программист, управляющий директор по исследованию данных в Sber AI (исследовательское подразделение «Сбера»), научный консультант в Институте искусственного интеллекта AIRI

Вопросы и ответы

Как скачать нейросеть Deep Seek?

Нажмите для звонка
+7 (993) 616-86-30