Впереди ещё долгий путь, но будущее многообещающее.

Иво Бернардо

4 июля 2026 г.

Читать 12 мин.

Поделиться.

Изображение автора.

Вы, вероятно, видели заголовки газет: передовые модели искусственного интеллекта всё чаще рискуют попасть под строгий экспортный контроль или столкнуться с ростом расходов на API.

Поскольку эта технология проникает в нашу повседневную жизнь, движение за открытый исходный код — это не просто философский выбор, а необходимый механизм, позволяющий сохранить ИИ в распоряжении обычных пользователей. Мы ещё не достигли паритета: запатентованные модели крупных технологических лабораторий по‑прежнему лидируют по производительности. Но можно надеяться, что разрыв быстро сокращается. Независимое сообщество исследователей и разработчиков круглосуточно трудится над тем, чтобы сделать эту технологию доступной для всех, у кого есть компьютер.

Сегодня основа для настоящей демократизации уже заложена: вы можете запускать высокопроизводительную модель прямо на своём ноутбуке. Для сегодняшнего эксперимента я решил найти большую языковую модель, которая смогла бы полностью работать на моём ноутбуке, и использовать её для выполнения простых задач, которые обычно поручаю большой лабораторной модели.

Мы установим Qwen 3 8B на мой MacBook Air, запустим его полностью автономно — и в итоге языковая модель будет работать на моём собственном компьютере, а не в удалённом центре обработки данных. Модели семейства Qwen разработала китайская компания Alibaba — их исходный код полностью открыт и доступен для скачивания в интернете. Вес модели составляет 9 миллиардов фунтов, а при загрузке она занимает около 6 Гб оперативной памяти.

Далее следует практическое руководство от начала до конца по запуску локального LLM на Apple Silicon Mac — оно включает необходимые команды терминала. Но прежде чем мы откроем терминал, нужно обсудить, зачем это вообще делать.

Зачем это делать?

В большинстве случаев облачные модели лучше и проще. Я не собираюсь утверждать, что модель с 8 миллиардами параметров на ноутбуке превосходит frontier AI. Это не так, и я по‑прежнему буду использовать массивные облачные модели для решения сложных задач.

Но постоянные споры о ценообразовании и суверенитете в сфере ИИ могут сделать модели с открытым исходным кодом и локальные модели очень востребованными в будущем — когда доступ к технологии будет иметь огромное значение. Каждый раз, используя Claude или ChatGPT, вы отправляете свои данные на несколько удалённых серверов, доступ к которым в любой момент могут заблокировать.

«Цифровой суверенитет» — громкая фраза, которая отражает вполне обычное желание: мы можем захотеть владеть устройством, которое читает наши самые сокровенные мысли, — так же, как владеете записной книжкой или храните дома немного наличных.

Локальная модель полностью соответствует этим требованиям в мире искусственного интеллекта. После загрузки с компьютера ничего не пропадает: ни ключи API, ни изменения условий предоставления услуг, ни нарушения правил безопасного хранения данных. Вы можете вынуть карту Wi‑Fi — и она продолжит работать. Для особо ответственных задач это уже само по себе может стоить того, чтобы заплатить за вход.

Люди любят говорить, что локальные модели «демократизируют» искусственный интеллект. Я бы хотел, чтобы это было правдой, но мы ещё не достигли этого. Использование этого пакета по‑прежнему предполагает, что у вас есть ноутбук стоимостью 1500 евро с массивной унифицированной памятью и вы уверенно работаете с командной строкой. Это небольшая, но значимая часть мира.

Но тенденция к демократизации продолжается. Два года назад для запуска достойной автономной модели требовалась выделенная рабочая станция и серьёзные технические навыки. В эти выходные у меня на это ушло пару часов и 5 гигабайт дискового пространства.

Итак, давайте установим эту программу.

Устройство и технические характеристики

Я собрал это на MacBook Air M4 с 24 ГБ встроенной памяти и примерно 235 ГБ свободного места для хранения. Это был чистый старт: никаких самодельных приложений, никаких проблем в среде Python.

Самое важное число — 24 ГБ. «Унифицированная память» Apple Silicon — это то, что делает компьютеры Mac такими эффективными в этом плане. Поскольку центральный и графический процессоры используют общий пул памяти, большие нейронные сети не нужно постоянно перемещать туда‑сюда.

Модель 8B занимает около 5 ГБ на диске и примерно 6 ГБ в памяти при загрузке. На компьютере с 24 ГБ памяти это очень удобно. Вы можете запустить 14‑гигабайтную модель и при этом оставить открытыми десятки вкладок браузера. (Если у вас Mac с 8 ГБ памяти, используйте модели 1.5B или 3B и закройте другие приложения.)

Почему именно Ollama?

Есть множество способов запустить локальный ИИ, и большинство из них требуют от вас разбираться с флагами компилятора и деревьями зависимостей. Этого можно избежать.

Ollama — это платформа с открытым исходным кодом и простой в использовании инструмент. Это единый двоичный файл, который включает высокооптимизированный модуль запуска моделей (для ускорения работы с графическим процессором llama.cpp использует Metal от Apple), реестр моделей в стиле Docker и локальный HTTP API. Вы устанавливаете его, запускаете модель и общаетесь с ней. Вот и всё!

Шаг 1: Установите Ollama (домашняя версия не требуется)

Ollama поставляется как стандартное приложение для macOS в zip‑архиве. Интерфейс командной строки (CLI) находится внутри пакета приложений, поэтому мы можем настроить его вручную.

# Download the Apple Silicon build
cd ~/Downloads
curl -L -o Ollama-darwin.zip https://ollama.com/download/Ollama-darwin.zip
# Unzip and move the app into your Applications folder
unzip -o -q Ollama-darwin.zip
mv Ollama.app /Applications/

Если вы не знаете, как открыть терминал, просто откройте список приложений на Mac и найдите «терминал».

Шаг 2: Добавьте Ollama в переменную PATH

Я не хотел возиться с разрешениями sudo в /usr/local/bin, поэтому привязал прилагаемый CLI к локальному каталогу — это просто удобный способ ускорить установку и запуск LLM.

# Create a local bin directory and symlink the CLI
mkdir -p ~/.local/bin
ln -sf /Applications/Ollama.app/Contents/Resources/ollama ~/.local/bin/ollama

# Make it permanent in your zsh profile
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.zshrc
# Apply it to your current shell
export PATH="$HOME/.local/bin:$PATH"
ollama --version

Шаг 3: Запустите сервер

Ollama запускает лёгкий фоновый сервер для предоставления API и управления памятью компьютера.

# Start the server and log output
mkdir -p ~/.ollama/logs
nohup ollama serve > ~/.ollama/logs/serve.log 2>&1 &

# Ping it to check if it's alive
curl -s http://127.0.0.1:11434/api/version

Если приведённая выше команда возвращает значение «версия», значит, Ollama настроена!

Возвращение версии Ollama в Mac Terminal

Примечание: вы также можете просто дважды щёлкнуть по приложению Ollama в папке «Приложения», чтобы запустить сервер через строку меню. Я сделал это через терминал, чтобы точно видеть, что происходит внутри.

Шаг 4: Загрузите модель

Это проще простого:

ollama pull qwen3:8b 
ollama list

Приготовьте кофе — объём загружаемого файла составляет около 5,2 ГБ.

После запуска ollama list вы увидите доступную модель:

Загруженный LLM доступен локально

Шаг 5: Общайтесь с новой локальной моделью на вашем компьютере

У вас есть три способа взаимодействия с новой локальной моделью.

Интерактивный чат (самый простой)

ollama run qwen3:8b

Выполнение следующей команды запустит интерактивный чат:

Окно интерактивного чата

В режиме по умолчанию модель выдаёт «токены мышления», которые обычно абстрагируются и скрываются в большинстве коммерческих инструментов.

Я начну с того, что спрошу свою локальную модель, что она думает о моделях с открытым исходным кодом:

Ответ от локальной модели (токены мышления)

Светло‑серый текст показывает внутренний процесс рассуждения модели. Эти модели выполняют множество вычислений перед тем, как сформировать ответ, и для локальных моделей фаза рассуждения занимает значительную часть общего времени до выдачи ответа.

После завершения процесса рассуждения вот ответ от модели:

Ответ от локальной модели

Как и в случае с большинством инструментов, эти модели также сохраняют некоторый контекст из предыдущих взаимодействий:

Новый вопрос к локальной модели.

Модель выдаёт 5,7 токенов в секунду, потому что я нахожусь в режиме экономии заряда батареи. Если я откажусь от этого режима, вероятно, значение составит 15–20 токенов в секунду.

Одноразовые команды терминала. Для взаимодействия с вашей локальной моделью вы также можете задать вопрос вне интерактивного режима:

ollama run qwen3:8b "write a python script that tells me how many vowels a word has"

Вот скрипт, созданный нашей локальной моделью большого языка:

питон

Запросить у пользователя слово

word = input("Введите слово: ")

Определить набор

гласных = {'a', 'e', 'i', 'o', 'u'}

Инициализируем счётчик

count = 0

Преобразуем слово в нижний регистр и проверяем каждый символ

на наличие символа в слове.строчные буквы():
если символ в гласных буквах:
count += 1

Выведите результат

на печать(f"Количество гласных: {count}")


3. The HTTP API (For Scripts and Apps)

Can you only use this within the terminal commands?

Of course not! If you are comfortable with Python, you can build any local script using your local model:

импорт json, urllib.request

req = urllib.request.Запрос(
"http://127.0.0.1:11434/api/generate",
данные=json.dumps({
"model": "qwen3:8b",
"prompt": "Дайте мне три варианта использования для локального LLM.",
"stream": Ложь,
"think": Ложь,
}).encode(),
headers={"Content-Type": "приложение/json"},
)
print(json.loads(urllib.request.urlopen(req).read())["ответ"])


Here is the answer from the model after running this Python script:

Конечно! Вот три наиболее распространённых и практических варианта использования локального LLM (модели Large Language):

Персонализированная помощь и продуктивность. Местный LLM может выступать в качестве частного помощника с искусственным интеллектом, помогая с такими задачами, как составление электронной почты, планирование, ведение заметок и даже кодирование. Поскольку он работает локально, он обеспечивает конфиденциальность пользователей и не зависит от подключения к интернету.
Создание контента и языковая обработка. Вы можете использовать локального LLM для создания креативного контента, такого как записи в блоге, истории, сценарии или маркетинговые материалы. Это также может помочь с языковым переводом, проверкой грамматики и обобщением текста.
Пользовательские приложения и интеграция. Локальный LLM может быть интегрирован в пользовательские приложения или рабочие процессы, такие как чат‑боты, системы поддержки клиентов или инструменты анализа данных. Это позволяет создавать индивидуальные решения, не передавая конфиденциальные данные на внешние серверы.

Дайте мне знать, если вам нужны примеры такого использования!


Cool! You can now create your own applications with your own local model quite easily.

Fine-Tuning the Experience — Taming the “Thinking” Tokens

Qwen 3 is a hybrid reasoning model. By default, it generates a verbose <think>...</think> block outlining its chain of thought before providing the actual answer. Sometimes you want to see the math but most of the time, you just want the answer quickly (and cut some time from waiting the output tokens from the thinking process).

Here is how you bypass the reasoning pass:

Disable it entirely: ollama run qwen3:8b --think=false

Run it, but hide it from the UI: ollama run qwen3:8b --hidethinking

In scripts: Pass "think": false in your JSON payload.

A Warning About Web Search

Models are static up until their training data. That means that they can’t access data after they were trained, and companies have been relying on web search tools to augment the capability of the models. For example for our local model:

Last day of training data of our Local Model

But, Ollama allows you to hand the model a web-search tool. This sounds incredible but there’s a catch.

The search itself executes on Ollama’s hosted cloud service. The moment you enable it, your prompts are being sent over the internet to fetch search results. The model stays local, but your queries do not. This may violate the principle of privacy you want to guarantee with the setup.

Bonus: VS Code Integration

The ultimate endgame for me was getting an offline coding assistant. The cleanest, entirely free path for this is the Continue.dev extension.

Install VS Code and the Continue extension.

Open Continue’s configuration file at ~/.continue/config.yaml.

Point it at your local Ollama server:

имя: Локальный ассистент
версия: 1.0.0
модели:
- имя: Qwen3 8B (локальный)
поставщик: ollama
модель: qwen3:8b
роли:
- чат
- редактировать
- применить
- имя: Qwen3 8B
Поставщик автозаполнения: ollama
модель: qwen3:8b
роли:
- автозаполнение
```

Совет профессионала: модель 8B немного перегружена из‑за задержки в доли секунды, которая требуется для автозаполнения встроенного кода. Я настоятельно рекомендую использовать модель меньшего размера специально для этой задачи (ollama использует qwen2.5-coder:1.5b-base), привязать её к роли автозаполнения и позволить Qwen3 8B выполнять более сложные задачи в чате.

Что делать, если у меня компьютер с Windows?

Поскольку я не использую Windows для этого руководства, я не пробовал его подробно. Но хорошая новость заключается в том, что пакет Ollama доступен для компьютеров с Windows здесь.

Процесс установки может немного отличаться, но логика, лежащая в основе использования Ollama и загрузки моделей, будет точно такой же.

Что из этого следует?

Мой общий объём для этого проекта составил 156 МБ для программного обеспечения и 5,2 ГБ для самой модели.

У меня теперь есть высокопроизводительная языковая модель, которая постоянно хранится на моём жёстком диске. Для общедоступной и сложной работы я по‑прежнему буду обращаться к облаку. Но что касается черновиков, которые я не хочу включать в учебные данные, автономных полётов и юридически обязательных клиентских документов — эта информация теперь у меня на компьютере.

Возможно, для большинства людей это всё ещё слишком сложно, но всё становится более доступным. И дело не только в доступности. Что касается производительности, то модели с открытым исходным кодом совершенствуются с ошеломляющей скоростью, обеспечивая результаты, которые делают будущее локального искусственного интеллекта невероятно многообещающим. Например, GLM 5.2 и Qwen 3.7 Max по производительности не уступают моделям big labs:

Сравнение производительности моделей на Software Engineering Benchmark — Фото автора

По мере того как технический уровень продолжает снижаться, «владение собственным ИИ» перестанет быть роскошью, предназначенной для разработчиков с дорогими ноутбуками. Я действительно верю в эту версию демократизации ИИ.

В эти выходные дайте своему ноутбуку ещё один «мозг», и да здравствует открытый исходный код!

Автор
Иво Бернардо

Смотрите все от Иво Бернардо

Искусственный интеллект, Llm, Ollama, Открытый исходный код, Программирование

Поделитесь этой статьей

Поделитесь на Facebook

Поделитесь на LinkedIn

Поделитесь на X

«На пути к науке о данных» — это публикация сообщества. Публикуйте свои идеи, чтобы охватить нашу глобальную аудиторию, и зарабатывайте с помощью авторской программы TDS.

Пишите для TDS