O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
Idade do canal
Criado
Linguagem
Russo
0.5%
ER (semana)
2.78%
ERRAR (semana)

AI/ML, MCP, MLOps, LLM, GPT, GNN, NLP, GCN, Python, AWS, Linux, DevOps

Отправить донат:

https://pay.cloudtips.ru/p/937f48ac

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 67 resultados
EV
Pavel Zloi
1 280 assinantes
3
3
33
Canary-Serve

Представляю вашему вниманию проект EvilFreelancer/docker-canary-serve - это небольшой FastAPI-сервер позволяющий работать с моделями NVIDIA Canary, выполняет быстрое многоязычное распознавание речи и умеет генерировать субтитры.

Поддерживает все основные модели семейства Canary:
- nvidia/canary-1b
- nvidia/canary-1b-flash
- nvidia/canary-180m-flash

Запустить так:
git clone https://github.com/EvilFreelancer/docker-canary-serve.git
cd docker-canary-serve
cp docker-compose.dist.yml docker-compose.yml
docker-compose up -d

Юзать так:
curl http://localhost:9000/inference \
-F file=@sample.wav \
-F language=en \
-F response_format=srt

Ограничения:
- Работает только на видеокартах Nvidia
- Базовые модели поддерживают только несколько языков: en, de, fr, es
- Для работы 180m модели нужно 2.5Гб VRAM, для работы 1B модели нужно 14Гб VRAM
27.04.2025, 15:46
t.me/evilfreelancer/1271
EV
Pavel Zloi
1 280 assinantes
18
10
495
Добавил в апишку несколько новых моделей

На этот раз все модели семейства GigaChat, использовать так:
curl https://api.rpa.icu/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://t.me/evilfreelancer" \
-d '{
"model": "GigaChat-2-Pro",
"messages": [
{"role": "user",
"content": "Расскажи, снегурочка, где была?"}
]
}'
Полный список всех новых моделей:
- GigaChat
- GigaChat-Max
- GigaChat-Plus
- GigaChat-Pro
- GigaChat-2
- GigaChat-2-Max
- GigaChat-2-Pro

И на десерт сберовский инстанс полноразмерной дипсик:
- Sber-DeepSeek-R1

#rpa
21.04.2025, 20:09
t.me/evilfreelancer/1270
EV
Pavel Zloi
1 280 assinantes
1
Всем привет! Добавил в мою апищку несколько новых моделей, на этот раз модели GigaChat, пока что обкатываю всю
21.04.2025, 20:05
t.me/evilfreelancer/1269
EV
Pavel Zloi
1 280 assinantes
Repostar
16
16
391
Дядя помнит, когда приму курил его дед. А теперь "раскуривать" новый распределённый аналог llama.cpp нам.

So, prima.cpp is a distributed implementation of llama.cpp that lets you run 70B-level LLMs on your everyday devices—💻 laptops, 🖥️ desktops, 📱 phones, and tablets.(с)

В пачке Примы:
- Heterogeneous, low-resource, cross-platform clusters (e.g., home devices connected by Wi-Fi);
- Quantization (Q4K and IQ1);
- Mixed CPU/GPU computing
Disk offloading;
- Piped-ring parallelism with prefetching;
- Automatic workload distribution.

Подробнее тут: https://huggingface.co/papers/2504.08791
20.04.2025, 22:49
t.me/evilfreelancer/1268
EV
Pavel Zloi
1 280 assinantes
10
8
517
Провозился несколько часов c LiteLLM, моя цель была сделать Prometheus Exporter чтобы считать сколько тот или иной юзер израсходовал токенов у какой модели.

Однако, оказалось, что разработчики LiteLLM лукавят заверяя нас, что их детище это полностью OpenSource проект, тут как говорится есть нюанс, чтобы заработали такие штуки как Prometheus Exporter, SSO и прочие полезности надо занести им немного денег за лицензию.

В общем перебрав с десяток вариантов, начиная с логирования запросов в файл, заканчивая альтернативными прокси, плюнул на это дело и полез в базу данных смотреть, что там по факту логируется и как, оказалось есть несколько таблиц с красивыми реляциями, с которых можно очень удобно снимать данные. Ну а собрать их и упаковать в формат экспортера это уже дело техники.

В результате чего у меня получился вот такой скрипт сервера, пользуйтесь на здоровье.

# HELP llm_tokens_by_user_total Total tokens used per user_email and model
# TYPE llm_tokens_by_user_total gauge
llm_tokens_by_user_total{model="deepseek-r1:8b",type="prompt",user_email="user@example.com"} 88.0
llm_tokens_by_user_total{model="deepseek-r1:8b",type="completion",user_email="user@example.com"} 3177.0
llm_tokens_by_user_total{model="deepseek-r1:8b",type="total",user_email="user@example.com"} 3265.0
19.04.2025, 22:54
t.me/evilfreelancer/1267
EV
Pavel Zloi
1 280 assinantes
6
4
359
Добавил в Fish Speech API поддержку голосов

Теперь при помощи параметра voice вы можете выбрать голос из заранее подготовленных сэмплов, полный список в папке examples, а взял я их со спейса fishaudio/fish-speech-1 на HuggingFace.

Пример использования:
curl http://localhost:8000/audio/speech \
-X POST \
-F model="fish-speech-1.5" \
-F voice="english-nice" \
-F input="Dr. Eleanor Whitaker, a quantum physicist from Edinburgh, surreptitiously analyzed the enigmatic hieroglyphs while humming Für Elise —her quizzical expression mirrored the cryptic symbols perplexing arrangement, yet she remained determined to decipher their archaic secrets." \
--output "speech.wav"

Помимо этого добавил в апишку возможность работать в режиме отправки JSON запросов:
curl http://localhost:8000/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "fish-speech-1.5",
"input": "Dr. Eleanor Whitaker, a quantum physicist from Edinburgh, surreptitiously analyzed the enigmatic hieroglyphs while humming Für Elise —her quizzical expression mirrored the cryptic symbols perplexing arrangement, yet she remained determined to decipher their archaic secrets.",
"reference_audio": "=base64..."
}' \
--output "speech.wav"

И ещё одно очень важное наблюдение

Модель Fish Speech очень плохо делает короткие сообщения, если хотите получить приемлемое качество то стоит присылать ей сразу абзац текста целиком, и если она начинает повторяться то ещё и repetition_penalty побольше делать.
17.04.2025, 10:27
t.me/evilfreelancer/1266
EV
Pavel Zloi
1 280 assinantes
1
6
ъ
16.04.2025, 21:02
t.me/evilfreelancer/1265
EV
Pavel Zloi
1 280 assinantes
10
9
430
Добавил в апишку модель ReZero-v0.1:3b-250404, а если точнее то конвертированную в GGUF версию.

Модель поддерживает function calling и судя по описанию в карточке очень упрямая, она будет рефлексировать и вызывать тул до тех пор пока не получит необходимый ответ.

Подробнее о модели ReZero можно почитать тут, а тут исходники.

Пример использования:
curl https://api.rpa.icu/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://t.me/evilfreelancer" \
-d '{
"model": "ReZero-v0.1:3b-250404",
"messages": [
{"role": "user",
"content": "Write a one-sentence bedtime story about a unicorn."}
]
}'
#rpa
16.04.2025, 20:48
t.me/evilfreelancer/1264
EV
Pavel Zloi
1 280 assinantes
18
16
459
🚀 Обновление моего публичного API-сервера

Я перенёс своё решение с самописного OpenAI-совместимого API-сервера на прокси LiteLLM, что позволило значительно упростить поддержку и расширить функциональность.

Теперь мой API-сервер поддерживает не только распознавание речи (ASR), но и генерацию речи (TTS) и текстовое общение с большими языковыми моделями (LLM).


🌊 Модель для генерации речи из текста — fish-speech-1.5

Добавлена поддержка модели fish-speech-1.5, которая позволяет выполнять преобразование текста в речь используя формат OpenAI-совместимых клиентов.

Для тестирования этой возможности я подготовил скрипт на Python: openai-tts.py

А это пример cURL запроса:
curl https://api.rpa.icu/audio/speech \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://t.me/evilfreelancer" \
-d '{
"model": "fish-speech-1.5",
"input": "Hello, this is a test of Fish Speech API",
"voice": "default"
}' \
--output "speech.wav"


💬 Думающая большая языковая модель — deepseek-r1:8b

Также теперь через API теперь можно общаться с thinking моделью deepseek-r1:8b, которая благодаря тому, что основана на LLaMA 3.1 8B, поддерживает function calling.

Скрипт-пример общения с моделью: openai-chat.py

А это пример cURL запроса:
curl https://api.rpa.icu/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer https://t.me/evilfreelancer" \
-d '{
"model": "deepseek-r1:8b",
"messages": [
{
"role": "user",
"content": "Write a one-sentence bedtime story about a unicorn."
}
]
}'


Обе новые модели работают на одной RTX 4090.

🧠 Всё это благодаря LiteLLM работает в рамках OpenAI-совместимого API, и по-прежнему доступно по тожму же адресу и тому же токену, пока что бесплатно:
OPENAI_BASE_URL=https://api.rpa.icu
OPENAI_API_KEY=https://t.me/evilfreelancer

Документацию обновил и дополнил: https://api.rpa.icu/docs/

———

Раньше я думал, что давать доступ к моделям только через API — это удел ленивых инженеров. Но спецы из OpenAI намедни показали мне, что это на самом деле общепризнанная мировая практика, и теперь я, как и положено, действую по заветам лидеров рынка. 😎

#rpa
15.04.2025, 22:41
t.me/evilfreelancer/1263
EV
Pavel Zloi
1 280 assinantes
12
50
720
Fish Speech API

Представляю вашему вниманию кастомный OpenAI-подобный API-сервер для генерации голоса, основанный на fish-speech-1.5 от FishAudio.

Поддерживает как обычный text-to-speech (TTS), так и подмену голоса через референс-аудио.
Работает через REST, всё максимально похоже на формат OpenAI /v1/audio/speech, так что можно просто подменить endpoint и не менять клиент.

✅ Что умеет:
- Генерация речи на базе модели fish-speech-1.5
- Стилизация речи под голос из аудио
- Кастомные параметры: top_p, temperature, max_new_tokens и др.
- Работает в докере или вручную через Python 3.12
Работает только на Nvidia.

🛠 Быстрый старт:
git clone https://github.com/EvilFreelancer/docker-fish-speech-server
cd fish-speech-api
cp docker-compose.dist.yml docker-compose.yml
docker compose up -d

Пример запроса:
curl http://localhost:8000/audio/speech \
-X POST \
-F model="fish-speech-1.5" \
-F input="Hello, this is a test of Fish Speech API" \
--output "speech.wav"

🎧 Хотите "подменить" голос? Просто добавьте reference_audio.

🔗 Исходники тут: https://github.com/EvilFreelancer/docker-fish-speech-server

Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.
15.04.2025, 20:22
t.me/evilfreelancer/1262
EV
Pavel Zloi
1 280 assinantes
Repostar
14
23
525
Помощник читателя: визуализируем сюжет

Пишем AI-помощника для анализа художественных произведений. С помощью языковой модели для анализа текста и небольшой обвязки для визуализации полученного структурированного ответа генерируем:

- граф связей между героями;

- хронологию событий;

- карту мест действия. Читать далее

#python #machine_learning #artificial_intelligence #natural_language_processing #литература | @habr_ai
15.04.2025, 09:29
t.me/evilfreelancer/1261
EV
Pavel Zloi
1 280 assinantes
12
5
1.2 k
Посмотрел посты блогеров которые по инерции всё ещё следят за анонсами новых продуктов от OpenAI.

Вот краткий пересказ:

Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещё вкуснее умнее.

Они доступны только по API, так что вкусить их смогут только самые упрямые.

На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.

Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.
14.04.2025, 21:31
t.me/evilfreelancer/1260
EV
Pavel Zloi
1 280 assinantes
6
562
Очень интересную фишечку обнаружил в Google Таблицах, оказывается можно редактировать/анализировать таблицу общаясь в формате чатика с Gemini интегрированную прямо в редактор.

Но что-то не могу разобраться как это себе настроить, удалось ли кому попробовать эту штуку и если да, то что надо для этого сделать?
14.04.2025, 12:53
t.me/evilfreelancer/1259
EV
Pavel Zloi
1 280 assinantes
30
22
666
Хозяйке на заметку:
git add . && git diff --cached | ollama run llama3.1:8b "Write a message based on the following changes,
only describe what was changed, without quotes:\n\n$(cat)" | xargs -I {} git commit -m "{}" && git push
14.04.2025, 11:22
t.me/evilfreelancer/1258
EV
Pavel Zloi
1 280 assinantes
12
7
595
Добавил документацию в формате OpenAPI/Swagger и простенький UI.

Смотреть тут: https://api.rpa.icu/docs/

#rpa
13.04.2025, 19:16
t.me/evilfreelancer/1257
EV
Pavel Zloi
1 280 assinantes
37
41
915
Мой публичный API-сервер для распознавания речи

Рад представить мой первый публичный OpenAI-совместимый API-сервер, доступный по адресу: https://api.rpa.icu

В настоящее время сервер предоставляет функциональность автоматического распознавания речи (ASR), используя модель Whisper Large V3 Turbo, запущенную через docker-whisper-server и квантованную до q4_0.

Система распределяет нагрузку по трём видеокартам: двум Intel Arc A770 и одной NVIDIA RTX 3050, обеспечивая высокую производительность и точность распознавания.

🔧 Как использовать API

Вы можете бесплатно использовать данный API с любым клиентом OpenAI, например, через Python-библиотеку openai.

Для работы с сервером необходимо указать адрес сервера и токен:
OPENAI_BASE_URL=https://api.rpa.icu
OPENAI_API_KEY=https://t.me/evilfreelancer

📄 Пример запроса с использованием `curl`

curl https://api.rpa.icu/audio/transcriptions \
-H "Authorization: Bearer https://t.me/evilfreelancer" \
-F file=@your_audio_file.mp3 \
-F model=large-v3-turbo \
-F language=ru

Замените your_audio_file.mp3 на путь к вашему аудиофайлу, а в параметре language можно указать язык аудио (например, ru для русского, en для английского и т.д.), если ничего не указать, то язык будет определён автоматически.

У сервера есть ограничение на максимальный размер файла равный 50Мб.

🐍 Пример использования на Python

Пример скрипта на Python для взаимодействия с API доступен по ссылке: openai-asr.py. Скрипт позволяет передавать аудиофайл, указывать формат ответа (text, json, srt, verbose_json), модель и язык.

Если у вас возникнут вопросы или потребуется помощь, вы можете задать свой вопрос в чате канала Pavel Zloi.

#rpa
13.04.2025, 15:55
t.me/evilfreelancer/1256
EV
Pavel Zloi
1 280 assinantes
17
3
580
#meme
13.04.2025, 14:23
t.me/evilfreelancer/1255
EV
Pavel Zloi
1 280 assinantes
16
6
587
Про репозитории Nvidia CUDA

Не прошло и полгода, как принципиальная компания Nvidia, тихо и без лишнего шума, сняла блокировку с российских IP-адресов, поэтому теперь снова можно спокойно качать CUDA драйверы напрямую из репозиториев Nvidia.

Но я - калач тёртый, так что на всякий случай своё зеркало https://mirror.rpa.icu/ оставлю, просто отключу специальные методы обхода указанных ограничений, за ненадобностью.
13.04.2025, 07:55
t.me/evilfreelancer/1254
EV
Pavel Zloi
1 280 assinantes
31
3
559
Поздравляю всех с Днём Космонавтики!
12.04.2025, 09:12
t.me/evilfreelancer/1253
EV
Pavel Zloi
1 280 assinantes
10
55
531
Прослушал курс про LangGraph от создателей LangChain

Недавно завершил обучение по курсу "Introduction to LangGraph" от команды разработчиков LangChain. Это отличный ресурс для тех, кто хочет продавать свои флоу под видом модных агентских систем, но пока ещё не знает как их делать.

В курсе подробно рассматриваются следующие темы:
- Построение сложных структур с использованием множества инструментов.
- Реализация операций выбора для передачи данных.
- Работа с короткосрочной и долгосрочной памятью.
- Интеракция с пользователем.

Курс рассчитан на 6 часов, но если проходить его, как я, по часу в день, то можно управиться за неделю.
9.04.2025, 07:36
t.me/evilfreelancer/1252
EV
Pavel Zloi
1 280 assinantes
17
8
527
Тут главное не перепутать #meme
8.04.2025, 00:45
t.me/evilfreelancer/1251
EV
Pavel Zloi
1 280 assinantes
5
6
503
Запустить обучение Nvidia Canary 180M Flash на моей RTX 4090 было тем ещё приключением.

Причина: посредственная документация проекта NeMo, через который реализованы скрипты обучения.

Вывод: пишите документацию, будьте профессионалами.
7.04.2025, 19:48
t.me/evilfreelancer/1250
EV
Pavel Zloi
1 280 assinantes
26
3
421
Поставил плашку с NVME в материнку (зеленая лампочка справа снизу) и между делом докинул пару вентиляторов корпусных на 120мм, через реобас подтюнил скорость вращения чтобы не шумело и теперь полезу ставить эту коробку на антресоль.

А на следующей неделе запущу на нем один публичный проект, о чем отдельно сообщу.

#server
6.04.2025, 16:01
t.me/evilfreelancer/1249
EV
Pavel Zloi
1 280 assinantes
8
13
525
RAG это call, теперь официально

При контексте 10M токенов есть мнение, что RAG (в классическом смысле: ретривер из векторной базы и ллм) в скором времени станет очень специализированной технологией для узкого спектра задач.

А учитывая тенденцию на постоянный рост максимального контекста вероятно и вовсе исчезнет из повестки.
6.04.2025, 09:54
t.me/evilfreelancer/1248
EV
Pavel Zloi
1 280 assinantes
491
6.04.2025, 09:17
t.me/evilfreelancer/1247
EV
Pavel Zloi
1 280 assinantes
2
494
Изучил отчёт тестирования llama 4 и сравнил с llama 3.3.

Основной упор в тестах llama 4 сделан в сторону работы с изображениям и есть гипотеза, что авторы в принципе не проводили тесты работы с текстом, либо провели и они плохие, поэтому в отчёте их не показали.

Ещё забавно, что модель Behemoth нельзя скачать даже на huggingface, так что на результаты тестов данной модели я бы пока смотрел через призму поэзии.
6.04.2025, 09:17
t.me/evilfreelancer/1246
EV
Pavel Zloi
1 280 assinantes
Repostar
5
5
385
🦙 Встречайте, дамы и господа, LLaMA 4: новые мультимодальные MoE модели!

Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.

Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.

Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.

Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн

У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.

Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.

На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,

🟡 Model Card
🟡 Веса
🟡 Релиз

@ai_machinelearning_big_data
6.04.2025, 07:19
t.me/evilfreelancer/1245
EV
Pavel Zloi
1 280 assinantes
16
3
412
Решил на днях увеличить количество доступной постоянной памяти для локальных моделей на gpu01.

У меня как-раз был незадействованный nvme на 512гб, только вот без адаптера в сервер его не поставить, так что пару дней сидел выбирал адаптер, и тут вспомнил, что у меня уже есть такой на антресолях.

Полез, достал, собрал, пойду поставлю.

#server
4.04.2025, 17:01
t.me/evilfreelancer/1244
EV
Pavel Zloi
1 280 assinantes
24
93
3.1 k
⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.

Главные изменения:

• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.

Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.

⚡️ Подробности — сегодня в 20:00 по МСК.

PS. Поздравляю с 1м апреля!
1.04.2025, 09:33
t.me/evilfreelancer/1243
EV
Pavel Zloi
1 280 assinantes
10
1
662
Не айтишное, но тоже интересное

Сегодня ко мне пришла ещё одна любопытная посылочка, на этот раз я впервые в жизни заказал футболку с принтом музыкального исполнителя (возможно вам известен такой композитор DnB как Venjent).

А сподвиг меня на это мой хороший знакомый, он опубликовал сторис в телеграм с рекламой своего магазина и фотографией этой футболки, в общем отказаться было невозможно.
31.03.2025, 18:29
t.me/evilfreelancer/1241
EV
Pavel Zloi
1 280 assinantes
659
31.03.2025, 18:29
t.me/evilfreelancer/1242
EV
Pavel Zloi
1 280 assinantes
Repostar
4
16
582
Открываем instruct-версию YandexGPT 5 Lite

Недавно мы выложили в открытый доступ pretrain-версию модели YandexGPT 5 Lite, обученную нами с помощью технологий Яндекса и без применения каких-либо сторонних моделей. За прошедший месяц в сообществе её скачали более 15 тысяч раз, на её основе создали больше десятка квантизованных моделей и даже дообучили instruct-версии. 

Тем не менее мы видим большой интерес к instruct-версии Яндекса, поэтому сегодня выкладываем её в открытый доступ. В том числе — в совместимом с llama.cpp формате, о чём нас просили на Хабре. Кроме того, мы обновили лицензионное соглашение для обеих моделей так, чтобы применять её стало возможно в ещё большем числе проектов, в том числе во многих коммерческих проектах. 

Для тех, кто хотел бы попробовать новую модель онлайн, она также доступна для выбора в Чате с Алисой и через API в Yandex Cloud. Читать далее

#яндекс #nlp #yandexgpt #machine_learning #open_source #huggingface | @habr_ai
31.03.2025, 11:51
t.me/evilfreelancer/1240
EV
Pavel Zloi
1 280 assinantes
5
13
482
С большим удовольствием прочёл публикацию "Моделирование экономического поведения с использованием LLM: сравнение моделей в кейнсианском конкурсе красоты" за авторством Петра Паршакова из ВШЭ с которым некоторое время назад мне довелось поработать над одним любопытным проектом.

Но вернёмся к публикации, в ней описывается экономический эксперимент под названием "кейнсианский конкурс красоты", а так же производится сравнение того как его проходили люди с тем как его проходят большие языковые модели (LLM).

На мой скромный взгляд в списке проанализированных моделей мне было бы интересно увидеть не только представленные модели, но и некоторые другие, например gpt-4o и gpt-o1, а так же deepseek-v3 (старая и новая), а так же v2, плюс любопытно повторить тест на отечественных моделях типа gigachat, yandexgpt, t-pro и t-lite.

Но в целом для первой публикации на Хабр очень хорошо.
30.03.2025, 15:16
t.me/evilfreelancer/1239
EV
Pavel Zloi
1 280 assinantes
26
1
494
Сегодня ко мне приехала вторая Intel Arc A770 на 16Гб, так что я скоро смогу попробовать запустить распределенное обучение через impruver.

Планирую поставить её в сервер gpu01, на нем сейчас Nvidia 3050 и Intel A770, думаю снять 3050 и поставить в gpu02 к 4090 помощницей, а на gpu01 будет две A770.

В общем вечером будет чем заняться.

#server #intel
29.03.2025, 19:29
t.me/evilfreelancer/1238
EV
Pavel Zloi
1 280 assinantes
14
3
584
Пробую тут приобщиться к новой фиче от ChatGPT прося её перерисовать некоторые мемы в формат советских плакатов.
29.03.2025, 12:09
t.me/evilfreelancer/1235
EV
Pavel Zloi
1 280 assinantes
3
577
29.03.2025, 12:09
t.me/evilfreelancer/1236
EV
Pavel Zloi
1 280 assinantes
2
577
29.03.2025, 12:09
t.me/evilfreelancer/1237
EV
Pavel Zloi
1 280 assinantes
22
58
754
Тут внезапно оказалось, что проект FireCrawl, который позволяет в режиме паука скравлить сайт в коллекцию Markdown-файлов, существует ещё и в self-hosted формате, а я наивно полагал, что есть только закрытая проприетарная версия.

Вот ссылочки с подробностями:
https://docs.firecrawl.dev/contributing/self-host
https://github.com/mendableai/firecrawl/blob/main/SELF_HOST.md
17.03.2025, 11:38
t.me/evilfreelancer/1234
EV
Pavel Zloi
1 280 assinantes
19
496
Кстати, чуть не забыл, поздравляю немногочисленных подписчиц канала с 8 марта!
8.03.2025, 14:55
t.me/evilfreelancer/1233
EV
Pavel Zloi
1 280 assinantes
11
2
439
Чтобы прочесть публикацию "Scalable Identity-Oriented Speech Retrieval" пришлось пройти регистрацию на ieeexplore, в процессе был приятно удивлён тем, что меня пропустили на сайт без применения спецсредств, всё же как непривычно без этих ритуальных препон проходить указанную процедуру.

Но не суть, публикацию мне прочесть на указанном сайте так и не удалось, оказалось надо ещё быть на попечении у одного из авторизованных университетов, либо же заплатить ведьмакам звонкой монетой, что в наши дни тоже задача за звёздочкой, ну думаю "ах так, поднять каперский флаг", но к счастью он не пригодился, так как на Google Scholar нашлась PDF.
8.03.2025, 12:22
t.me/evilfreelancer/1232
EV
Pavel Zloi
1 280 assinantes
12
17
410
И так, продолжаем разговор, ссылок набралось порядочно, так вот вторая пачка публикаций, их краткое саммари и мой небольшой комментарий.


Curated collection of papers and resources on how to unlock the reasoning ability of LLMs and MLLMs (ссылка)

Кратенько: По ссылке коллекция из 130+ ссылок на статьи про датасеты и техники обучения ризонингу вышедшие начиная с 2022 года, так что всё достаточно свежее, есть обзорные статьи, есть разные околотехнические статьи с анализом работы тех или иных моделей, есть статьи про техники обучения и тестирования ризонинга и так далее.

От себя: В проекте собрана великолепная подборка различных публикаций и проектов, однако, отдельно хочу отметить заинтересовавший меня проект google-research/cascades, который позволяет формировать "каскадные" CoT цепочки вызывая внешние тулы и используя механизмы обратной связи.


Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917)

Кратенько: Эта публикация про метод Self-Correct via Reinforcement Learning (SCoRe), использующий RL для улучшения способности языковых моделей к самокоррекции через генерацию собственных данных, что по тестам позволило достичь хороших результатов на бенчмарках MATH и HumanEval.

От себя: Очень любопытная статья,. по тексту сложилось мнение что SCoRe это что-то среднее между RL и RLHF (только вместо хумана обучаемая модель). Как я понял модель в процессе обучения делает две генерации, после первой проверяет себя и генерируют инструкцию самокоррекции, после второй рассчитывается то насколько ответы похожи на правильный из датасета (при этом не показывая модели какой правильный) и из этого формируется RL-награда, финальная цель которой обучить модель либо с первого раза отвечать "как надо" либо с одной подсказкой.


Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (arXiv:2411.14405)

Кратенько: Эта публикация представляет модель Marco-o1 и методы её RL обучения используя Chain-of-Thought, MCTS и механизмы рефлексии.

От себя: В данной публикации очень подробно описан весь процесс, который сводится к SFT обучению на CoT инструкциях, после чего RL обучению который предполагает, что модель сама будет генерировать возможные варианты ответа (дерево решений), после через MCTS (Monte Carlo Tree Search) выбирать наиболее эффективный (через оценку top-k и softmax). Процесс "рассуждения" продолжается до тех пока не будет достигнут приемлемый результат.


Puzzle Solving using Reasoning of Large Language Models: A Survey (arXiv:2402.11291)

Кратенько: Любопытный обзор исследований, оценивающих способности LLM в решении головоломок.

От себя: Из интересного классификация видов загадок и обзор датасетов под каждый из примеров, но отдельно хочу отметить упоминаемую работу "Graph of Thoughts: Solving Elaborate Problems with Large Language Models" (arxiv:2308.09687) о фреймворке, который позволяет построить не просто цепочку, а граф размышлений.


Продолжение продолжит продолжаться...
5.03.2025, 16:28
t.me/evilfreelancer/1231
EV
Pavel Zloi
1 280 assinantes
32
64
734
Всем привет!

После релиза R1-тюна на YandexGPT 5 Lite получил солидный пинок фидбэк от ML-сообщества. Если кратко: по мнению сообщества моя модель - не R1, потому что я ограничился SFT без RL, в довесок мне выдали охапку ссылок на различные исследования и публикации, так что последние два дня я практически всё свободное время впитывал новую информацию аки губка.

Начну с первой партии ссылок и некоторыми моими комментариями о прочитанном.


SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training (arXiv:2501.17161)

Кратенько: Исследователи сравнили SFT и RL на задачах арифметики и анализе изображений. "Чистый" SFT идеален для запоминания формата ответов и на данных в пределах домена (ID in-domain), но фейлится на данных вне тренировочного домена (OOD out-of-domain). "Чистый" RL (особенно с outcome-based reward) обобщает даже на невиданные ранее сценарии (OOD), но плохо соблюдает формат ответа.

От себя: В общем надо делать SFT+RL пайплайн для наилучшего эффекта.


Towards Reasoning in Large Language Models: A Survey (arXiv:2212.10403)

Кратенько: Небольшой обзор про ризонинг в LLM. Чем крупнее модель, тем лучше она "цепляет" паттерны рассуждений. Плюс подчеркивается неопределенность в отношении истинного ризонинга у моделей, не является ли это просто переиспользованием шаблонов из обучающего датасета.

От себя: В публикации мне понравилась про декомпозицию сложных задач на множество маленьких (типа генерация шагов решения), чтобы получались эдакие Chain-of-Thoughts последовательности ризононига, и вроде как даже слабые модели неплохо с этим справляются, надо будет поискать датасеты подходящие.


Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models (arXiv:2501.09686)

Кратенько: Подробный разбор всех шагов необходимых для обучения ризонинг модели с упором на финальный alignment этап и методы вознаграждения (обратная связь).

От себя: В данной публикации понравилось про шаги обучения модели до reasoning уровня: 1. pre-train (на text corpora); 2. fine-tune (sft на инструкциях с правильным форматом); 3. alignment (на ризонинг датасетах). Далее было очень подробно про RLHF для многоэтапных CoT последовательностей и разные виды подобного обучения и под конец про алгоритмы поиска наилучшего ответа (мой любимый кворум упоминается), там из примечательного был Lookahead Search (arXiv:2403.02502).


Understanding Reasoning LLMs (сайт)

Кратенько: Разбор кейса DeepSeek-R1, в RL было несколько наград: проверка кода через LeetCode, соблюдение формата ответа (как я понял чтобы был тег) и языка на котором модель отвечает (типа чтобы не переходила на китайский слишком часто).

От себя: Очень понравилась публикация, в ней подробнейшем образом разобрана тема ризонинга на примере модели DeepSeek-R1, разобраны отдельные шаги начиная с того как была получена через RL-only тюн первая R1-Zero, потом как с её помощью сгенерировали более сложный RL датасет и как потом при его помощи выполняли обучение полновесной R1 модели.


To be continued...
5.03.2025, 02:00
t.me/evilfreelancer/1230
EV
Pavel Zloi
1 280 assinantes
22
72
2.4 k
YandexGPT R1 на Huging Face

Выпустил адаптер на Hugging Face который я дообучил при помощи impruver поверх YandexGPT-5-Lite-8B-pretrain вышедшей на днях, используя датасеты оптимизированные под reasoning.

Ссылки:
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_lora
- https://huggingface.co/evilfreelancer/r1_yandexgpt5-lite_gguf
- https://ollama.com/evilfreelancer/r1_yandexgpt5-lite

Конфигурация: YandexGPT/8B_lora_r1
Отчёт W&B: https://api.wandb.ai/links/evilfreelancer/zj6s02v4

Запустить через Ollama:
ollama run evilfreelancer/r1_yandexgpt5-lite
2.03.2025, 15:46
t.me/evilfreelancer/1229
EV
Pavel Zloi
1 280 assinantes
11
14
348
Тюн YandexGPT через impruver

Набросал небольшой рецептик дообучения LoRA-адаптера модели YandexGPT-5-Lite-8B-pretrain, которую инженеры из Яндекс выпустили вот буквально на днях.

Обучить хочу R1 (ризонинг) адаптер заточенный под русский язык по аналогии с моделью общего назначения от проекта Vikhr выпущенную сегодня утром.

На данный момент датасет состоит из:
- mizinovmv/ru_example_DeepSeek-R1-Distill-Qwen-32B
- lightblue/reasoning-multilingual-R1-Llama-70B-train
- Pinkstack/thinking-multilingual-30-23-small-690
- Vikhrmodels/reasoning-0.01-ru
- Vikhrmodels/russian_math
Но на самом деле там из 31й тысячи примеров получилось примерно 28ь тысяч из reasoning-0.01-ru.

Накидайте пожалуйста каких бы вы ещё хотели в модель добавить reasoning датасетов.
28.02.2025, 19:16
t.me/evilfreelancer/1228
EV
Pavel Zloi
1 280 assinantes
4
2
357
оверлорд мувинг

Сейчас был очень обрадован новостью на Хабр о том, что EA Games опубликовали исходные коды некоторых игр серии Command & Conquer, однако, лично меня прежде всего заинтересовало два тайтла: C&C Generals (включая аддон Zero Hour) и 3D-шутер C&C Renegate.

Полагаю не пройдёт и месяца как появится нормальный порт указанных тайтлов под Linux с текстурами высокого разрешения и исправленными багами, так что скоро будет чем заняться.
28.02.2025, 18:51
t.me/evilfreelancer/1227
EV
Pavel Zloi
1 280 assinantes
11
18
473
На днях мне удалось решить проблему со Structured Output модели DeepSeek-R1 8B запущенной через локальную ollama используя чистый клиент openai, оказалось что если прочесть документацию, то можно получить ответ на поставленный вопрос гораздо быстрее, чем если пытаться решить его своими силами.

Вся хитрость в формате JSON схемы в промте и в параметре response_format={'type': 'json_object'} который передаётся на вход chat completion.

Далее развивая эту идею можно взять схемы Pydantic и выполнить преобразование из классов моделей в формат простенького Structured Output JSON:
from pydantic import BaseModel, Field

class Test(BaseModel):
reasoning: str = Field(description="Detailed explanation (required)")
answer: str = Field(description="Answer to question (required)")

schema = Test

schema_json = schema.model_json_schema()
field_descriptions = {
field: details.get('description', '')
for field, details in schema_json.get('properties', {}).items()
}
Ну и далее можно по желанию инициализировать Pydantic класс из полученного ответа.
28.02.2025, 11:57
t.me/evilfreelancer/1226
EV
Pavel Zloi
1 280 assinantes
9
5
448
Ох, впервые за долгое время окажусь на волне хайпа, оказывается OpenAI опубликовали новуюприновую модель gpt-4.5, 1М токенов которой стоит в 15 раз дороже чем gpt-4o, галлюцинаций по циферкам стало чуть меньше, а ответы чуть точнее и так далее и тому подобное, но главное вот:
Input:
$75.00 / 1M tokens
Cached input:
$37.50 / 1M tokens
Output:
$150.00 / 1M tokens
В целом типичный анонс с помпой от OpenAI поражающими своей крутостью и цифрами.

PS. Улыбнуло то, что по ощущениям тестеров модель стала лучше чем gpt-4o на сколько-то там процентов, это мне напомнило рекламу из 90х про корм для домашних питомцев, который стал по мнению экспертов ещё вкуснее :)

PPS. Осталось дождаться независимых сравнений с DeepSeek R1, чтобы понять насколько цифры далеки от объективной реальности, так как есть мнение, что одних ощущений недостаточно и нужен чуть более внимательный и тщательный ресёрч.
27.02.2025, 23:46
t.me/evilfreelancer/1225
EV
Pavel Zloi
1 280 assinantes
8
2
392
Аки Танос обзавожусь новыми камнями бесконечности чатиками с нейросетям, сегодня вот смог пройти регистрацию на сайте Perplexity AI без помощи "обходных путей", что меня не перестаёт удивлять.

Ну так вот, дизайн у Perplexity очень приятный, тёмная тема по умолчанию очень порадовала.

Из фичей есть возможность создавать Space must flow (рис.1), это что-то типа Project в ChatGPT или NotebookLLM у Google, можно в созданный спейс накидать несколько разных источников, ссылки, файлы и инструкции, а потом в формате эдакого RAG общаться с тем что получилось, к сожалению на бесплатном тарифе только самая слабая модель доступна.

Ещё заинтересовала страница Discovery (рис.2) с последними новостями, ничего подобного у конкурентов нет, правда не совсем понял зачем оно нужно и что с этим делать, так как настроить её под себя мне не удалось, похоже какой-то гимик, но можно общаться с выбранной новостью, что удобно.

Auto модель пишет средненький код, который хуже даже чем через Qwen 2.5 Coder 32b.

Ещё попробовал режим Deep Researcher для задачи кодинга, очень занятно у них это реализовано, сайтик пишет красивые логи, даже в тему какие-то ссылочки находит, однако, задачку связанную с кодингом, что я попробовал, система решила даже хуже чем просто Auto модель.

DeepSeek R1 и OpenAI o3 работают так же как и в оригинальных чатиках.

Так что теперь у меня ещё плюс один чатик.

PS. Проверил возможность купить Pro аккаунт, для этого не требуется симка, только банковская карточка, так что можно без особых проблем имея лишь карточку с долларами всё себе организовать.
26.02.2025, 19:26
t.me/evilfreelancer/1223
EV
Pavel Zloi
1 280 assinantes
2
401
26.02.2025, 19:26
t.me/evilfreelancer/1224
EV
Pavel Zloi
1 280 assinantes
10
27
356
Продолжаю изучать тему построения RAG-подобных систем и вот наткнулся на один крайне примечательный пост на Gist в котором автор реализовал "базу знаний" RAG основанного на Gemini используя простой советский Google Spreadsheet документ, что на мой скромный взгляд позволяет создавать RAG "под ключ" которые можно отдать конечному пользователю в паре с небольшой инструкцией о том как наполнять документ данными.
25.02.2025, 17:54
t.me/evilfreelancer/1222
EV
Pavel Zloi
1 280 assinantes
5
4
352
Привет! Знаю, что пропал на несколько дней, просто решил немного отдохнуть от потока новостей вообще и нейроновостей в частности и чуть больше внимания уделить спорту, а тем временем за неделю накопилось несколько интересных публикаций на почитать.

Особенно понравилась публикация под названием "Как добавить в OpenWebUI генерацию изображений через ComfyUI", если кратко, то в ней показали где найти настройки в OpenWebUI которые бы позволили генерировать картинки через схему собранную в ComfyUI, а ещё как генерировать картинку из ответа нейросети.
24.02.2025, 12:02
t.me/evilfreelancer/1221
EV
Pavel Zloi
1 280 assinantes
8
12
549
Пару дней просидел над проблемой применения function call подхода на моделях которые можно запускать локально через ollama, тестировал преимущественно те модели у которых заявлена поддержка tools (сиречь function calling) ну или есть фраза function call в описании, выбирал первым делом бибилиотечные модели (квантованные спецами из ollama), потом до кучи выбрал ещё пару моделей deepseek собранных с хитрым чат-шаблоном.

Пробовал я схемы используя:
- только базовый клиент ollama
- langchain-ollama как обёртку вокруг ollama
- openai базовый клиент с указанием в качестве base_uri сервера ollama
- langchain-openai как обёртку вокруг openai с base_uri до ollama

Ну в общем нормально и предсказуемо заставить работать хотя бы одну модель мне так и не удалось, в качестве референса у меня было заранее подготовлено два примера на gpt-4o (базовый клиент openai и langchain вариация).

Далее я попробовал реализовать через langchain ollama небольшой скрипт под structured output (используя model.with_structured_output(Schema)) и вот уже этот подход показал гораздо более качественный результат, лучше всего себя показали модели llama 3.1 и выше (и производные от них модели), от 8b и выше параметров.

Поэтому сложилось мнение, что похоже на саму идею function call решений сообщество ML подзабило в пользу гораздо более простого и понятного structured output.
12.02.2025, 15:46
t.me/evilfreelancer/1220
EV
Pavel Zloi
1 280 assinantes
6
1
333
Сижу считаю экономическую целесообразность разных моделей в рамках одного кейса, так вот, дошли руки до моделей OpenAI, выявился один занятный факт: gpt-3.5-turbo стоит примерно так же как gpt-4o.
gpt3.5-turbo
$3.000 / 1M input tokens
$6.000 / 1M output tokens
gpt-4o
$2.50 / 1M input tokens
$10.00 / 1M output tokens
А судя по ценам если есть необходимость в небольшой модели для каких-то простых задач, то похоже стоит брать gpt-4o-mini:
gpt-4o-mini
$0.150 / 1M input tokens
$0.600 / 1M output tokens
Такие вот странности.
10.02.2025, 13:01
t.me/evilfreelancer/1219
EV
Pavel Zloi
1 280 assinantes
19
13
398
Удивительное рядом, третьего дня завёл себе учётную запись в Ле Чатике Mistral AI.

Поразило меня не столько качество модели (которую к слову нельзя выбрать, вероятно из-за бесплатного тарифа), оно у них норм не лучше и не хуже остальных аналогов, сколько тот факт, что я не используя "обходных путей" смог зарегистрироваться указав почту и меня не обозвали индейцем из лесу, а просто пропустили внутрь.

Потом ещё смог подключить мой российский номер телефона к аккаунту для разработчиков, чтобы можно было API ключ сгенерировать (там правда ограничения по количеству запросов, но полагаю ничего не мешает мне завести 10, 20 или 100 учеток при необходимости).
For all models that are compatible with the Free-tier, the following limits apply:
- 1 request per second
- 500,000 tokens per minute
- 1 billion tokens per month

Выбор моделей по API порядочный, есть как бесплатные модельки, доступные на Hugging Face, так и закрытые large, small, codestral и даже эмбеддинговые модельки есть, помимо этого можно тренить модели на своих данных, прямо как у ChatGPT.

Но больше всего меня впечатлила фича у чатика Mistral которой нет нигде, называется она Workspaces, ближайшая аналогия это общая папка на Гугл Диске с которой могут работать все учётки у которых к ней есть доступ, то есть можно коллективно работать над разными промтами переключаясь между разными пространствами.

ЗЫ. Так что у меня теперь есть чатики GigaChat, YandexGPT, ChatGPT, DeepSeek, Qwen и вот теперь ещё Mistral (это не считая локальных серверов), проснулся какой-то азарт, чувствую себя Эшем, готта катч эм ааааал.
9.02.2025, 16:04
t.me/evilfreelancer/1218
EV
Pavel Zloi
1 280 assinantes
8
13
389
Намедни наблюдал как участники чатика обсуждают возможности генерации изображений (при помощи моделей Stable Diffusion) разными способами.

Среди всех упомянутых инструментов меня более всего заинтересовала штука под названием ComfyUI.

Для начала в ней мне понравилась реализация LoRA-адаптеров, правда пришлось повозиться с установкой Plugin Manager и Model Manager, потом зарегаться на civitai, после чего пользоваться платформой стало вполне комфортно, в общем скачиваешь адаптер, вытягиваешь его на холст, проводишь связи к адаптеру из базовой модели, потом от адаптера к промтам, чтобы цепочка шла транзитом, и готово.

Вторая очень крутая фича в том, что можно настроить любую схему из цепочек моделей и разных обработчиков и использовать её в виде API-сервера, это очень упрощает отладку и развёртывание, пожалуй ComnfyUI это одна из немногих No Code платформ имеющая такую возможность, так как обычно подобные проекты привязывает пользователя к своему UI-интерфейсу без возможности интеракции с ней из вне.

Ну и добивочка, в ComfyUI можно делать свои ноды (custom node), если кратко ноды это вершины графа которые пользователь связывает рёбрами, каждая вершина может выполнять вызов внешней функции, данная функция реализуется на языке Python, в свою ноду можно добавить входные и выходные потоки, указать их тип, можно делать вызов внешних систем, можно перечислить зависимости python-пакетов без которых нода не будет работать, короче мне теперь ясна причина популярности данного проекта.

В общем рекомендую попробовать ComfyUI всем, кто ещё не пробовал.

PS. Как же приятно иногда отвлечься от языковых моделей и пощупать сетки которые просто работают, запустил, написал промт и получил то что заказывал, круто же.
8.02.2025, 12:50
t.me/evilfreelancer/1217
EV
Pavel Zloi
1 280 assinantes
4
6
339
Вчера вечером прочёл про Open DeepResearch от инженеров Hugging Face, говорят они всего за сутки смогли воспроизвести при помощи smolagents аналог решения от OpenAI.

Ну так вот, Open DeepResearch любопытно обрабатывает запрос пользователя, пытается писать сразу код на Python и интерпретировать его при помощи CodeAgent (это такая песочница для выполнения кода, что-то вроде защищённого тула), если код не работает то система пробует исправить его до тех пор пока либо количество повторов не иссякнет, либо скрипт наконец не заработает. Полученный скрипт выполняет задачу описанную пользователем после чего ответ присылается пользователю.

Поддерживаются разные поставщики LLM, можно даже свой локальный использовать, главное чтобы он был совместим с OpenAI клиентом, так что через ollama или vllm не сложно будет завести данную систему на своём железе. Есть и бесплатные поставщики модели DeepSeek-R1, так что можно какие-то отдельные задачи делать используя самую лучшую на сегодняшний день thinking модель.

Cистема пишет занятные скрипты и комментарии по ходу дела, можно заказать какой-нибудь обзор страничек в интернете (для этого есть тул WebAgent), можно добавить тул который будет у пользователя запрашивать какие-то дополнительные текстовые уточнения, есть тул для чтения данных из файлов, ещё понравился тул поиска по Arxiv и некоторые другие тулы.

Однако, мне пока что не удалось добиться хоть какого бы то ни было полезного результата "исследования", он если и похож на то что я просил то исключительно в стиле "в темноте если прищурится и вдали рассматривать некий контур", так что пока отношусь, что к OpenAI DeepResearch, что к Hugging Face DeepResearch скептически.

Вероятно надо давать системе очень подробное техническое задание, коих у меня накопилось уже порядочно, в общем буду продолжать наблюдения.

PS. Придерживаюсь того же мнения, что высказал Старший Авгур, мне тоже показалось, что Open DeepResearch by Hugging Face Team это просто реклама через хайп трейн проекта smolagents.
5.02.2025, 15:41
t.me/evilfreelancer/1216
EV
Pavel Zloi
1 280 assinantes
20
32
385
С большим удовольствием прочёл публикацию "Building effective agents" вышедшую из под пера инженеров работающих в Anthropic.

Если кратко, то в ней авторы провели замечательный обзор и разбор методологий реализации проектов на базе больших языковых моделей (LLM), но самое главное, что в статье понравилось это примеры того когда тот или иной метод подходит для решения проблемы, а когда нет.

Например цитата про то когда в системе нужен роутер:
- Перенаправление различных типов запросов на обслуживание клиентов (общие вопросы, запросы на возврат, техническая поддержка) в различные последующие процессы, подсказки и инструменты;
- Направление простых/распространенных вопросов в более мелкие модели, такие как Claude 3.5 Haiku, а сложных/необычных вопросов в более эффективные модели, такие как Claude 3.5 Sonnet, для оптимизации затрат и скорости.

Вот список всех тем, которые затрагивает публикация: цепочки моделей, помянутый ранее роутинг, параллелизм, оркестрация разных воркеров (тулов), валидация/оптимизация, ну и конечно же хайпующие агенты.

В общем рекомендую для ознакомления всем кто интересуется построением систем на базе БЯМ'ов.
3.02.2025, 22:55
t.me/evilfreelancer/1215
EV
Pavel Zloi
1 280 assinantes
8
9
340
Кстати, совсем забыл рассказать одну историю, пилил я намедни один небольшой проектик связанный с LLM (неожиданно, да?), данный проект предполагает анализ данных со страниц на Хабр и Дзен.

В общем намучившись в очередной раз с конвертером HTML страниц в Markdown решил сделать удобный тул, чтобы не надо было в Python коде всякий лишний код дублировать по десять раз, но прежде чем начать решил погуглить и ближайший пример готового решения который мне удалось найти назывался https://r.jina.ai (в документации сказано побольше), вот пример: https://r.jina.ai/https://dzen.ru/a/ZGI0ytgNQUkpkIME

Но как вы уже могли догадаться у данного решения от Jina AI есть фатальные недостатки.

Первый

Похоже решение реализовано на Python Requests и поэтому если на сайте есть какая-то динамика на JavaScript то вместо коньтента мы получает тент без коня, поэтому надо было чтобы Selenium использовался по умолчанию и ещё и ждал полной загрузки всего это JS безобразия.
Поправочка, сейчас перепроверил на r.jina.ai старые ссылки с которыми у меня ранее были проблемы, теперь они открываются нормально, видать там сидит некий homo legere omnia человек читающий логи и оперативно правит роутинг таблицу перекидывая запросы на селениум.

Второй

Под капотом у них там работает jinaai/ReaderLM-v2, которая удаляет из предложенного HTML лишний, по версии LLM, контент, включая ссылки и рекламные банеры и так далее, поэтому более чем в половине случае результат скорее бесполезен, чем полезен, плюс оформление Markdown совсем не бомбуча.

Решение

Короче, взялся за эту проблему и запили простенький процессор страничек: https://url2md.rpa.icu/

Работает он пока что следующим образом, передаём GET'запросом ему полный URL анализируемой страницы, в ответе будет Markdown, проще некуда, вот пример: https://url2md.rpa.icu/https://dzen.ru/a/ZGI0ytgNQUkpkIME

Селениум скачивает страницу, после чего выбирает только полезную нагрузку (пока что поддерживается только сайты Хабр и Дзен) и возвращает в ответе plain/text с Markdown документом.
2.02.2025, 14:17
t.me/evilfreelancer/1214
EV
Pavel Zloi
1 280 assinantes
6
366
2.02.2025, 12:48
t.me/evilfreelancer/1213
EV
Pavel Zloi
1 280 assinantes
8
6
354
Всем привет! Вчера на flowise развлекался тем, что собрал две схемы RAG в формате No Code для работы с документацией ManticoreSearch Engine (для удобства сделал отдельный реп manticore-docs только с документацией), ну не даёт мне покоя этот проект, в общем используя подход "RAG это корзина для бумаги и шредер вместо крышки" собрал:

(v1) простенькую схему которая похожа на моё текущее решение, доступное в боте @manticoresearch_ai_bot, однако, результат разочаровал, потому как во flowise не изобрели реранкеры и отсортировать документы полученные на шаге векторного поиска попросту нельзя. В процессе сборки выяснилось, что не стоит использовать InMemory векторную базу, так как каждый раз при каждом запросе происходит реиндексация, что несколько неудобно, так что пошёл по проторенной дорожке с pgvector.

(v2) чуть усложнил подход используя концепцию LLM агентов и представил векторную базу в качестве тула, перепробовал с два десятка моделей, по итогу получилось даже хуже чем в v1.

В общем для удобства мне на самом деле нужен только реранкер, но результат по прежнему разочаровывает даже на базовых задачках, пока что нет ничего лучше чем загнать в контекст ChatGPT всю документацию и просить давать ответы на запросы пользователя.

PS. Возможности использовать ManticoreSearch в качестве вектороной базы во flowise к сожалению не предусмотрели, а ещё если бы она и была работать с ней как с полнотекстовым поиском будет не просто (через http клиента по API разве что).
2.02.2025, 12:48
t.me/evilfreelancer/1212
EV
Pavel Zloi
1 280 assinantes
17
3
1.0 k
И вот когда мне наконец удалось скомпилировать whisper-server из исходников (тег v1.7.4) испытание запуском показало краш, начал перебирать модели, оказалось, что без проблем запускаются только модели Whisper до base включительно (в смысле tiny, small и base)

Нюанс в том, что всё что выше запускаться отказывалось, бинарник крашился со странной ошибкой Bus error (core dumped) гуглёж которой ничего толкового не показал, благо в чате мне подсказали почитать док EnvironmentVariables, а в частности про:
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
Оказалось, что если у этой переменной положение не 0 (а оно как-раз 1 по умолчанию на Linux) то загрузка весов модели происходит батчами, что и приводит к ошибке.

Финальный вариант Dockerfile.intel можно найти в моём репозитории docker-whisper-server, а вот для сравнения версия Dockerfile под CUDA, как видно отличия минимальны, а пример docker-compose.yml я добавил в README проекта.

UPD. Далее буду пробовать всякие разные сравнительные тесты железки супротив RTX 3050, которая находится на том же сервере, результатами тестов поделюсь отдельно.

#server #intel
29.01.2025, 16:53
t.me/evilfreelancer/1211
EV
Pavel Zloi
1 280 assinantes
12
3
947
Чтобы запустить в Docker-контейнере на этой видеокарте проект whisper.cpp пришлось реально попотеть, изначально пробовал сделать шептуна используя от эту инструкцию, но ничего не получалось, да и неактуальна она в отдельных местах, пошёл гуглить и нашёл пример Dockerfile, который сам по себе хоть и мало мне помог, но показал что есть официальные FROM образы от Intel на Docker Hub.

Пошёл смотреть и в этот момент предо мной разверзлись океанические бездны, оказалось у Intel есть неймспейс intel с целой россыпью разных платформ для решения ML задач в Docker, а для тех кому сложно/скучно разбираться с базовыми контейнерами есть неймспейс intelanalytics с интеграциями различных популярных проектов (к сожалению многие контейнеры тут весят от 6 до 8Гб, так что для прода такое себе).

Отдельно отмечу контейнер intel/oneapi-basekit (весит почти 4Гб) который оказался самым полезный под мои задачи, он содержит в себе всё необходимое для компиляции приложений использующих видеокарты от Intel, его ближайший аналог это контейнер nvidia/cuda с тегом devel, собственно в бейскит я и решил реализовать сборку контейнера whisper.cpp.

#server #intel
29.01.2025, 16:39
t.me/evilfreelancer/1210
EV
Pavel Zloi
1 280 assinantes
12
2
876
Всем привет! Набросал тут лонгрид, но решил побить его на части, чтобы проще было читать, ну так вот.

Пару дней возился с моей новёхонькой видеокартой Intel Arc A770 (16Гб), многое читал и потому многое узнал об инфраструктуре Intel и про то, что нужны свежие ядра Linux (от 6.12 включительно и выше) чтобы свежие драйверы работали корректно, и про то что есть разные бренчи (Client, Data Center и FPGA) и вариации (LTS и Rolling) у этих драйверов, а ещё что драйверы под Ubuntu Devel прекрасно работают на Debian Trixie, и про Intel oneAPI подсистему.

Благо в Intel похоже работают скучные и педантичные инженеры типа меня, которые не чураются написанием документации посему разобраться с большинством проблем не составляет особого труда, всё уже разжевано и разложено по полочкам до нас, даже в некотором смысле скучно.

Но без сложности конечно же не обошлось, всё началось когда я наконец подготовил операционную систему и пошёл по тропинке машинного лёрнингизма, собственно и эту карточку для только для ML и брал, а если точнее то для Whisper.

#server #intel
29.01.2025, 16:37
t.me/evilfreelancer/1209
EV
Pavel Zloi
1 280 assinantes
5
388
27.01.2025, 21:31
t.me/evilfreelancer/1208
EV
Pavel Zloi
1 280 assinantes
29
8
737
Приехала моя Intel Arc A770, мне эту карту очень рекомендовали, да и как можно отказаться от этой крохи, которая пусть и не самая шустрая, но занимает всего два слота и имеет на борту аж целых 16Гб VRAM.

#server #intel
27.01.2025, 21:31
t.me/evilfreelancer/1206
EV
Pavel Zloi
1 280 assinantes
5
390
27.01.2025, 21:31
t.me/evilfreelancer/1207
EV
Pavel Zloi
1 280 assinantes
7
19
927
Хмм, приложение DeepSeek и правда Топ-1 в мировом AppStore, а я думал это фотошоп, пойду пожалуй тоже себе его скачаю.
27.01.2025, 15:47
t.me/evilfreelancer/1205
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa