DeepDigest
Towards Data Science · · ~2 мин

Как создать базу знаний на базе LLM

Статья посвящена созданию базы знаний на базе LLM. Автор объясняет, почему такие базы становятся всё мощнее благодаря технологиям LLM, и описывает способы автоматического внесения и активного использования информации. Рассмотрены два подхода к работе с базой: активный запрос и пассивное использование инструментом в процессе работы.

LLM
Как создать базу знаний на базе LLM

В статье Эйвинда Кьосбаккена рассматривается создание базы знаний на базе больших языковых моделей (LLM). База знаний — это инструмент для хранения информации, которая может быть использована в будущем. Она помогает эффективнее принимать решения, быстрее осваивать прошлый контекст и упорядочивать работу команды.

Благодаря LLM базы знаний стали гораздо мощнее: теперь можно получить больше информации и проще обращаться к ней — без ручного просмотра. Автор подчёркивает важность автоматического внесения данных в базу знаний — это позволяет не упустить важный контекст. Источниками информации могут быть встречи, инструменты управления проектами (например, Linear), работа с моделями вроде Claude Code или Codex, обсуждения в офисе и др.

Чтобы автоматизировать внесение данных, можно настроить задания cron: они будут ежедневно синхронизировать информацию из разных источников (например, записи совещаний, данные из инструмента управления проектами) с базой знаний. С обсуждениями в офисе сложнее — тут возможны варианты: либо постоянно записывать всё (с согласия участников), либо фиксировать ключевые моменты вручную после встречи. При этом нередко контекст из устных обсуждений потом всё равно попадает в coding agent, и его можно извлечь из журналов этой системы.

Есть два основных подхода к использованию информации из базы знаний. Первый — активный запрос к базе, когда пользователь задаёт вопрос программисту (или иному инструменту), а тот обращается к базе знаний за ответом. Второй — пассивное использование базы знаний инструментом в процессе работы (например, при написании кода или исправлении ошибок).

Среди методов работы с базой знаний автор выделяет:
* вывод на основе grep: в базе хранится файл markdown верхнего уровня с общей информацией; при поиске используется grep — это эффективнее поиска на основе встраивания, но файл может стать слишком большим;
* вывод на основе внедрения: при запросе выполняется поиск по встраиванию, извлекаются релевантные фрагменты из базы знаний; если LLM считает, что нашла полезную информацию, она продолжает анализ соответствующих файлов. Этот подход удобен тем, что не требует активного поиска и большого количества входных токенов.

Автор рекомендует попробовать создать базу знаний, наполнить её данными, изучить опыт других и активно использовать инструмент в работе — в будущем такие базы станут ещё более ценными.

// оригинал
Towards Data Science ↗ Читать оригинал
68 просмотров
// поделиться Telegram VK