🔹Добрался до тестирования LLM локально прямо на ноутбуке.
🔹 Уже поставил: llama3, deepseek r1 и mistral. Работает быстро и абсолютно бесплатно.
🔹 Из командной строки управление не вызывает проблем, кому надо GUI, вот решение - https://lmstudio.ai
🔹 В чём суть: интегрировать парсеры сайтов с LLM и посмотреть как они будут справляться в многопоточном режиме.
🔹 Один из подопытных сайтов - vc.ru. У меня уже есть рабочий парсер vc. Загружаю ссылки на аккаунты пользователей - получаю все статьи в .txt с форматированием.
🔹 Что еще интересно: превратить vc в базу знаний LLM.
🔹 Проблема любой нейронки: у них слишком общие знания, а актуальность информации ограничена датой последнего обучения. Тем более, до многих сайтов краулеры могут просто не достучаться из-за защиты, но я эту защиту успешно обхожу.
🔹 Решение: дополнить локальную LLM базой знаний всех статей с vc. Делается с помощью RAG (Retrieval-Augmented Generation).
🔹 Что будем делать: спарсим весь vc с помощью
Crawl4AI, загрузим данные в векторную базу данных, которую легко поймет LLM, сделаем ИИ-агента на фреймворке Pantic AI, ну и в конце завернем все это в web-приложение на Streamlit.
🔹 Что получим: локальную нейронку, которая обучена на статьях с vc, можно спрашивать что угодно про SEO, маркетинг, крипту, нейросети, технологии, новости, курсы, мероприятия и так далее, писать сверхкачественные статьи, систематизировать информацию и прочее.