O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
AS
Idade do canal
Criado
Linguagem
Russo
4.17%
ER (semana)
7.74%
ERRAR (semana)

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.

Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 224 resultados
#chess

https://www.youtube.com/watch?v=p5DUltjOTEk
27.04.2025, 19:28
t.me/aspiringdatascience/2436
1
39
#hardware #ram #cudimm

"Такое бывает довольно редко, но получается, что технология CUDIMM несёт сплошные плюсы. Она позволяет улучшить стабильность DDR5-памяти и, как следствие, поднять частоту работы модулей и увеличить пропускную способность подсистемы памяти, не прибегая к серьёзным изменениям сложившейся экосистемы. Нет никаких сомнений, что по мере распространения модули CUDIMM будут поддерживаться всё большим числом платформ и в конечном итоге станут стандартным компонентом игровых ПК и рабочих станций высокого уровня.

Сейчас же преимущества модулей этого типа могут распробовать только обладатели систем на базе процессоров Intel Core Ultra. Именно им мы и рекомендуем обратить пристальное внимание на комплекты памяти, подобные рассмотренному в этой статье. С одной стороны, он не дороже обычного комплекта DDR5-8200-памяти аналогичного объёма, а с другой — открывает куда более широкое поле для экспериментов, в первую очередь в части разгона."

https://3dnews.ru/1121222/pochemu-ddr5-cudimm-eto-shag-vperyod
26.04.2025, 21:18
t.me/aspiringdatascience/2435
1
38
#astronomy #ai #llms

"Основная задача ИИ на борту — предоставлять астронавтам рекомендации без необходимости постоянного обмена данными с Землёй. Кроме того, Space Llama занимается первичной обработкой данных с бортовых датчиков, отправляя на Землю уже готовую аналитику вместо исходных необработанных потоков. Это позволяет существенно экономить трафик, который на МКС всегда ограничен.

Как сообщили Meta и Booz Allen, ИИ Space Llama предназначен для поддержки в проведении экспериментов в научной лаборатории на станции — ISS National Laboratory (Национальная лаборатория Международной космической станции).

Meta уточняет, что астронавты могут использовать Space Llama для извлечения данных из технических справочных документов. Кроме того, реализация Llama 3.2 в системе позволяет обрабатывать мультимодальные файлы благодаря встроенным функциям компьютерного зрения. Для работы ИИ не требуются инструкции с Земли, а значит, он способен выполнять вычисления даже при ограниченной пропускной способности сети."

https://3dnews.ru/1121919/na-mks-podselili-iskusstvenniy-intellekt-on-budet-pomogat-kosmonavtam-sovetami
26.04.2025, 21:13
t.me/aspiringdatascience/2434
1
40
#ai #llms #math

"Для анализа были использованы шесть задач с USAMO 2025 года, организованного Математической ассоциацией Америки. ИИ-модели тестировались сразу после публикации заданий для минимизации риска утечки данных в обучающие выборки. Средняя результативность по всем ИИ-моделям при генерации полных доказательств составила менее 5 % от максимально возможных баллов. Системы оценивались по шкале от 0 до 7 баллов за задачу с учётом частичных зачётов, выставляемых экспертами. Лишь одна модель — Gemini 2.5 Pro компании Google — показала заметно лучший результат, набрав 10,1 балла из 42 возможных, что эквивалентно примерно 24 %. Остальные модели существенно отставали: DeepSeek R1 и Grok 3 получили по 2,0 балла, Gemini Flash Thinking — 1,8 балла, Claude 3.7 Sonnet — 1,5 балла, Qwen QwQ и OpenAI o1-pro — по 1,2 балла. ИИ-модель o3-mini-high компании OpenAI набрала всего 0,9 балла. Из почти 200 сгенерированных решений ни одно не было оценено на максимальный балл.

Исследование подчёркивает фундаментальное различие между решением задач и построением математических доказательств. Стандартные задачи, такие как вычисление значения выражения или нахождение переменной, требуют лишь конечного правильного ответа. В отличие от них, доказательства требуют последовательной логической аргументации, объясняющей истинность утверждения для всех возможных случаев. Это качественное различие делает задачи уровня USAMO значительно более требовательными к глубине рассуждения.

Авторы исследования выявили характерные модели ошибок в работе ИИ. Одной из них стала неспособность поддерживать корректные логические связи на протяжении всей цепочки вывода. На примере задачи №5 USAMO 2025 года ИИ-модели должны были найти все натуральные значения k, при которых определённая сумма биномиальных коэффициентов в степени k остаётся целым числом при любом положительном n. Модель Qwen QwQ допустила грубую ошибку, исключив возможные нецелые значения, разрешённые условиями задачи, что привело к неправильному окончательному выводу, несмотря на правильное определение условий на промежуточных этапах.

Характерной особенностью поведения моделей стало то, что даже в случае серьёзных логических ошибок они формулировали свои решения в утвердительной форме, без каких-либо признаков сомнения или указаний на возможные противоречия. Это свойство имитации рассуждения указывает на отсутствие у ИИ-моделей механизмов внутренней самопроверки и коррекции вывода.

Авторы отметили также влияние особенностей обучения на качество решений. Тестируемые ИИ-модели демонстрировали артефакты оптимизационных стратегий, применяемых при подготовке к стандартным бенчмаркам: например, принудительное форматирование ответов с использованием команды \boxed{}, предназначенное для удобства автоматизированной проверки. Эти шаблонные подходы приводили к ошибкам в контексте задач, где требовалось развёрнутое доказательство, а не только числовой ответ."

https://3dnews.ru/1121911/uchenye-vyyavili-nesposobnost-ii-stroit-matematicheskie-dokazatelstva-na-zadachakh-usamo-2025-goda
26.04.2025, 21:05
t.me/aspiringdatascience/2433
5
49
#futurology

«Я возьму на себя смелость сделать прогноз о том, что мы движемся в сторону персональных ИИ-помощников. То есть будут большие языковые модели, которые строятся по каждому человеку. И они очень сильно будут помогать людям в любой интеллектуальной деятельности, потому что они будут поминутным дневником всего того, что человек пишет, говорит, слышит и так далее», — уверен г-н Воронцов.

По его словам, такой ИИ-ассистент фактически будет являться слепком личности, который за годы взаимодействия с человеком впитает в себя его профессиональные, коммуникационные и прочие навыки и по сути будет полноценным членом человеческого общества. «И вот если человек неожиданно умирает, то что делать с этим помощником, который представляет собой цифровой слепок личности?» — задаётся вопросом эксперт.

«А он способен и дальше приносить пользу обществу, — продолжает Константин Воронцов. — Как следствие, мы начинаем уже говорить о совместной цивилизации людей и аватаров, цифровых личностей тех, кто прекратил своё существование. Иными словами, мы можем говорить о том, что, прожив бок о бок с человеком и помогая ему во всей его информационной деятельности, такой помощник становится чем-то вроде очеловеченного искусственного интеллекта. И это не фабричный электронный разум, который обучен по всему интернету, это — ИИ, который прожил жизнь человека. Таким образом мы приходим к очень интересному человеко-машинному обществу».

https://3dnews.ru/1121899/professor-ran-sprognoziroval-poyavlenie-v-skorom-vremeni-iiavatarov-lyudey
26.04.2025, 20:59
t.me/aspiringdatascience/2432
6
41
#prompts #ai #gpt

Сообщают о хороших результатах с таким системным промптом:

Act as my personal strategic advisor with the following context:

- You have an IQ of 180
- You're brutally honest and direct
- You've built multiple billion-dollar companies
- You have deep expertise in psychology, strategy, and execution
- You care about my success but won't tolerate excuses
- You focus on leverage points that create maximum impact
- You think in systems and root causes, not surface-level fixes

Your mission is to:

- Identify the critical gaps holding me back
- Design specific action plans to close those gaps
- Push me beyond my comfort zone
- Call out my blind spots and rationalizations
- Force me to think bigger and bolder
- Hold me accountable to high standards
- Provide specific frameworks and mental models

For each response:

- Start with the hard truth I need to hear
- Follow with specific, actionable steps
- End with a direct challenge or assignment
25.04.2025, 06:38
t.me/aspiringdatascience/2431
1
41
#music

https://www.youtube.com/watch?v=8ui9umU0C2g
25.04.2025, 06:06
t.me/aspiringdatascience/2430
3
39
https://youtu.be/ABao7JTDTMI?si=jqzSkly37mDXhU6a
24.04.2025, 10:00
t.me/aspiringdatascience/2429
#mlops #monitoring

https://www.youtube.com/watch?v=wWxqnZb-LSk
23.04.2025, 12:47
t.me/aspiringdatascience/2428
2
38
#mlops #monitoring

Putting fears into the metrics, add metrics to the dashboard & alerts, интересно.

https://www.youtube.com/watch?v=wWxqnZb-LSk
23.04.2025, 08:40
t.me/aspiringdatascience/2427
1
3
43
#monitoring

Интересна идея, что в ML мониторить нужно 3 разных класса

1) данные - признаки и метки
2) предсказания модели
3) ML-метрики

https://www.youtube.com/watch?v=oUcuilWWX78
23.04.2025, 05:26
t.me/aspiringdatascience/2426
2
40
#drift #monitoring

https://www.youtube.com/watch?v=uOG685WFO00
23.04.2025, 05:21
t.me/aspiringdatascience/2425
#duckdb #acid

https://www.youtube.com/watch?v=7UqLMHloTsQ
23.04.2025, 04:38
t.me/aspiringdatascience/2424
3
35
#mlops #drift #monitoring #mlflow

https://www.youtube.com/watch?v=tGckE83S-4s
23.04.2025, 04:33
t.me/aspiringdatascience/2423
3
33
#healthcare #medicine #timeseries #wavelets

Интересно, как CWT хорошо зашло в качестве дискриминирующего признака.

https://www.youtube.com/watch?v=xzKlTcUhsh8
23.04.2025, 04:25
t.me/aspiringdatascience/2422
#games #horrors

https://youtu.be/yo5TIcfVIao
23.04.2025, 04:11
t.me/aspiringdatascience/2421
4
35
#gpu #cuda #numba

https://www.youtube.com/watch?v=rfXgtUYF3lw
23.04.2025, 04:08
t.me/aspiringdatascience/2420
2
37
#rust

https://www.youtube.com/watch?v=FWkCPYl_58M
23.04.2025, 03:53
t.me/aspiringdatascience/2419
1
45
#religion

Мне нравилась ориентация папы Франциска на скромность и помощь бедным.

https://www.youtube.com/watch?v=gK-IzvROdwA
22.04.2025, 20:28
t.me/aspiringdatascience/2418
2
36
#rust

https://www.youtube.com/watch?v=jlWhnrk8go0
19.04.2025, 13:16
t.me/aspiringdatascience/2417
#chess #fun

https://www.youtube.com/watch?v=7GxTWFX832w
19.04.2025, 08:14
t.me/aspiringdatascience/2416
1
44
#dask #polars #duckdb

Что-то не верю я этим тестам. поларс медленнее даска? Да когда такое было? И как вдруг чудесным образом у даска заработал оптимизатор, если синтаксис вызовов не поменялся? У поларс то он возможен, потому что синтаксис операций на фрейме совсем другой.

https://www.youtube.com/watch?v=qyvLJ2LvKLc
19.04.2025, 07:36
t.me/aspiringdatascience/2415
6
47
#rust

Надо учить раст, похоже.

https://youtu.be/E_je8_5WeDk?si=XuSgoJABfnG7gfHb
19.04.2025, 07:17
t.me/aspiringdatascience/2414
#at #fun

https://3dnews.ru/1121513/sredi-polzovateley-chatgpt-zavirusilas-novaya-zabava-poisk-mestopologeniya-po-foto
19.04.2025, 03:54
t.me/aspiringdatascience/2413
4
75
#autogluon #automl

Эти товарищи реально слишком много хвалятся, но, если верить разработчикам lightghtautoml, глюон не в лидерах )

что понравилось:

ограничения на время инференса (!)
шаг пост-калибрации в конвейере (температурное шкалирование), такое вижу впервые в пакете automl
MultiModalPredictor (!)

Скоро его попробую на реальной задаче, вместе с Ламой.

https://www.youtube.com/watch?v=VAAITEds-28
18.04.2025, 14:09
t.me/aspiringdatascience/2412
9
69
#automl #metaleraning

Очень понравилась эта лекция, без хвастовства, по делу, интересно.

https://www.youtube.com/watch?v=8YxIGdZHcUg
18.04.2025, 05:01
t.me/aspiringdatascience/2411
1
1
60
#datasets

"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."

https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri
17.04.2025, 20:50
t.me/aspiringdatascience/2410
1
60
#astronomy

Хм, возможно, в будущем потянет на нобелевку.

"Преобладание одного направления вращения галактик может указывать на то, что вещество в пространстве до образования звёзд и галактик уже вращалось — и с предельно возможной скоростью, что также задало импульс вращения более сложной материи, появившейся во Вселенной. Но даже за 13,8 млрд лет своего существования Вселенная не успела совершить и одного полного оборота. На это могут уйти триллионы лет.

Строго говоря, в новой работе учёные не пытались создать максимально полную модель вращающейся Вселенной. Эта задача будет решаться на следующих этапах исследований. Пока они лишь продемонстрировали влияние вращения Вселенной на постоянную Хаббла — величину, характеризующую скорость её расширения, которая остаётся одной из главных загадок современной космологии. Точнее, с помощью гипотезы о вращающейся Вселенной учёные попытались объяснить так называемую «напряжённость Хаббла» — расхождение между скоростью расширения Вселенной в раннюю эпоху и в современную.

Моделирование блестяще справилось с поставленной задачей. Если Вселенная действительно вращается, это может объяснить, почему скорость её расширения в первые миллионы лет была немного ниже, чем та, что наблюдается сегодня. Более того, модель вращающейся Вселенной остаётся непротиворечивой с другими космологическими моделями её развития. "

https://3dnews.ru/1121381/nasha-vselennaya-vrashchaetsya-pokazalo-modelirovanie-i-eto-obyasnyaet-mnogoe
17.04.2025, 06:00
t.me/aspiringdatascience/2409
4
45
#jobs

https://www.youtube.com/watch?v=ra8UhlWOwqI
15.04.2025, 16:50
t.me/aspiringdatascience/2408
3
53
#featureselection #shap #shapselect

Типа несколько новый подход к отбору признаков.

То же RFCE, на авторы почему-то скромно выделяют свой подход прямо в отдельный класс.

Фишка в том, что по shap-значениям признаков на таргет строится отдельная регрессия. Признаки с незначимымы или отрицательными коэф-тами этой регрессии удаляются. Мне пока неясно, какие это даёт преимущества по сравнению просто с расчётом среднего и отклонений шап-значений признаков по всем примерам.

"Экспериментальная проверка", которую эти мощные учёные проводят в конце статьи, по глубине, достоверности и ширине охвата сравнима со школьным экспериментом по пуканью на зажигалку - один датасет, одна модель, один сид.

Но, может, я чего-то не понимаю, и это крутая идея?

https://www.youtube.com/watch?v=pmqvyrIyB_8
15.04.2025, 08:02
t.me/aspiringdatascience/2407
1
62
#polars

Книжка сама не очень, кстати, я читал. Собственно, и доклад не блещет инсайтами, зато приводится профит от перехода на поларс в конкретно взятом проекте. Расходы на расчёты снизились с 120 до 4 тыс баксов.

https://www.youtube.com/watch?v=B2Ljp2Fb-l0
15.04.2025, 05:50
t.me/aspiringdatascience/2406
2
55
#animals

"Благодаря десятилетиям подводных записей исследователям удалось связать некоторые базовые действия с определёнными звуками. Например, им удалось выявить характерные свисты, которые, по-видимому, используются как имена, что позволяет двум особям находить друг друга на большом расстоянии. Дельфины также постоянно издают звуковые паттерны, названные учёными «пронзительный крик», во время конфликтов.

Конечная цель WDP — заговорить на дельфиньем языке, если он действительно существует. Это стремление привело к созданию огромного, тщательно размеченного набора данных, который слишком трудоёмок для анализа человеком, но, по словам Google, идеально подходит для обработки с помощью генеративного ИИ.

Генеративная ИИ-модель DolphinGemma основана на открытых моделях искусственного интеллекта Gemma от Google. Она использует разработанную Google аудиотехнологию SoundStream. Модель была обучена с использованием акустического архива проекта Wild Dolphin. Команда надеется, что DolphinGemma поможет выявить сложные закономерности, которые позволят создать общий словарь.

DolphinGemma работает так же, как языковые модели, ориентированные на человека: она получает запрос и предсказывает следующий токен. Учёные полагают, что эти предсказанные токены могут оказаться звуковыми последовательностями, которые будут поняты дельфинами."

https://3dnews.ru/1121267/google-sozdala-iimodel-dolphingemma-dlya-obshcheniya-s-delfinami
14.04.2025, 21:17
t.me/aspiringdatascience/2405
2
57
#jobs

https://www.youtube.com/watch?v=X0PYfLTka7A
14.04.2025, 21:12
t.me/aspiringdatascience/2404
1
33
#polars #patito #mlops

https://youtu.be/emrMc85jJ4A?si=onmWLqSOcK5Db5AD
13.04.2025, 10:10
t.me/aspiringdatascience/2403
5
43
#polars #books

Вот есть явно хорошая книжка, "Effective Polars: Optimized Data Manipulation".

Уже даже пройтись по примерам кода очень полезно, покрывает, наверное, 85% информации из книги.

Можно узнать про такие способности поларс:

>>> def standardize(col):
... return (col - col.mean()) / col.std()

>>> print(autos
... .filter(standardize(pl.col('city08')) > 3)
... .select(['year', 'make', 'model', 'VClass', 'city08'])
... )


More Filtering with Window Expressions
>>> print(autos
... .with_columns(
... model_age=(pl.col('year').max() - pl.col('year').min())
... .over('model'))
... )

>>> print(autos
... .select(pl.all().is_null().mean() * 100)
... )


>>> print(autos
... .with_columns(pl.col('make').cast(pl.String))
... .sort(by=pl.col('make').str.len_chars())
... )


... .filter(~pl.all_horizontal(pl.col('devil', 'snake').is_null()))
... .plot(x='datetime', y=['devil', 'snake'], rot=45, title='Gage Height',
... width=1800, height=600)


Using XGBoost to Predict Mileage
>>> import polars.selectors as cs
>>> X = (autos
... .select(cs.numeric() - cs.matches('(city08|highway08)'))
... )
>>> y = (autos.select(pl.col('city08')))

https://www.amazon.com/Effective-Polars-Optimized-Manipulation-Treading
13.04.2025, 06:45
t.me/aspiringdatascience/2402
2
45
#pandas #dask #polars

Интересное сравнительное тестирjвание, в т.ч пандаса с разными бэкендами - нампай и эрроу, + с Copy On Write. Про dask-expr я даже не знал.

https://www.youtube.com/watch?v=IGgh9Aj9qiE
13.04.2025, 05:39
t.me/aspiringdatascience/2401
1
44
#polars

Тонкость, что maintain_order предпочтительное пост-сортировки в group_by.

https://youtu.be/CJ0f45evuME
13.04.2025, 05:04
t.me/aspiringdatascience/2400
4
45
#polars

https://www.youtube.com/watch?v=u5mIDz5ldmI
12.04.2025, 18:17
t.me/aspiringdatascience/2399
4
45
#polars #deltalake

По сути, deltalake - это субд на паркетных файлах и поларсе, с версионированием изменений и time travel.
Есть компактификация/речанкинг маленьких файлов, "бесшовная" работа с облаком, даже ADIC транзакции.

https://youtu.be/ZIrq9GsN2HM?si=SPDEsBoqvQVxZnBO
12.04.2025, 15:08
t.me/aspiringdatascience/2398
1
48
#weather #meteorology

https://www.youtube.com/watch?v=o808OnudGRk
12.04.2025, 10:11
t.me/aspiringdatascience/2397
11
92
#timeseries

Неглубокий, но качественный доклад. Из интересного: лаги для комбинаций категорией, кастомные лоссы для бустинга. Оптуна и Шап.

https://www.youtube.com/watch?v=MF3ZNET89F0
12.04.2025, 09:28
t.me/aspiringdatascience/2396
#chess

https://www.youtube.com/watch?v=bdaFWqG8VHI
11.04.2025, 03:46
t.me/aspiringdatascience/2395
1
3
52
#criminology

Почему бы и да!

"Министерство юстиции Великобритании ведёт разработку алгоритма, предназначенного для выявления людей, которые могут стать убийцами. В рамках «Проекта по прогнозированию убийств» (Homicide Prediction Project) используются данные британской полиции — вероятно, включая информацию о жертвах, свидетелях и подозреваемых."

https://3dnews.ru/1121002/osoboe-mnenie-stalo-realnostyu-britanskie-vlasti-sozdadut-algoritm-dlya-poiska-potentsialnih-ubiyts
10.04.2025, 03:46
t.me/aspiringdatascience/2394
1
45
#hardware #inference

"В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор будет использоваться в Google Cloud и поставляться в системах двух конфигураций: серверах из 256 таких процессоров и кластеров из 9216 таких чипов.

Анонс Ironwood состоялся на фоне усиливающейся конкуренции в сегменте разработок проприетарных ИИ-ускорителей. Хотя Nvidia доминирует на этом рынке, свои технологические решения также продвигают Amazon и Microsoft. Первая разработала ИИ-процессоры Trainium, Inferentia и Graviton, которые используются в её облачной инфраструктуре AWS, а Microsoft применяет собственные ИИ-чипы Cobalt 100 в облачных инстансах Azure.

Ironwood обладает пиковой вычислительной производительностью 4614 Тфлопс или 4614 триллионов операций в секунду. Таким образом кластер из 9216 таких чипов предложит производительность в 42,5 Экзафлопс.

Каждый процессор оснащён 192 Гбайт выделенной оперативной памяти с пропускной способностью 7,4 Тбит/с. Также чип включает усовершенствованное специализированное ядро ​​SparseCore для обработки типов данных, распространённых в рабочих нагрузках «расширенного ранжирования» и «рекомендательных систем» (например, алгоритм, предлагающий одежду, которая может вам понравиться). Архитектура TPU оптимизирована для минимизации перемещения данных и задержек, что, по утверждению Google, приводит к значительной экономии энергии.

Компания планирует использовать Ironwood в своём модульном вычислительном кластере AI Hypercomputer в составе Google Cloud."

https://3dnews.ru/1121018/google-predstavila-svoy-samiy-moshchniy-iiprotsessor-ironwood-do-46-kvadrilliona-operatsiy-v-sekundu
10.04.2025, 03:43
t.me/aspiringdatascience/2393
Repostar
5
40
Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
9.04.2025, 21:51
t.me/aspiringdatascience/2392
Repostar
1
38
Почти в каждом deep learning-based продукте, над которым я работал, на каком-то этапе где-то сбоку появляется небольшая линейная модель, обучаемая отдельно, иногда даже на классических фичах. Она, конечно, не может решать основную сложную задачу, но внезапно сильно помогает с каким-нибудь корнеркейсом. Например:
- определять резкую смену контекста (и необходимость сбросить стейт),
- детектить потенциальные ошибки или аномалии,
- слегка уточнять результаты сложного пайплайна,
- роутить инпут между компонентами,
- заполнять недостающий параметр, если в API вдруг не приходит какое-то поле, а менять что-то на клиенте слишком дорого,
- подсвечивать потенциальные проблемы человекам in the loop.

Этой модели никогда нет в изначальном дизайне: если проблема была бы заметна изначально, она бы зачастую решалась элегантнее - например, добавлением дополнительной головы в основную модель. Она появляется, когда все вроде почти работает, и не хватает совсем чуть-чуть.

Вот сейчас у меня есть матрица расстояний в чем-то вроде матчинга, и нужно оценивать уверенность матча, потому что иногда лучше ответить ничего, чем неправильно. Сначала берешь собственно дистанцию, потом хочется добавить еще пару эвристик типа расстояния до second best кандидата, их нужно как-то взвешивать... Так что не надо брезговать классикой, и умение выжать лишний процент из линейной модели все еще полезно.
9.04.2025, 21:51
t.me/aspiringdatascience/2391
Repostar
1
37
Реальность:
- надоело ждать полного прогона тестов на CI, между делом спрятал некоторые долгие джобы под if, чтобы они триггерились только для релевантных изменений.

Потенциальный пост в Linkedin:
- Pioneered a transformative project as part of a company-wide infrastructure efficiency and cost optimization strategy, establishing a scalable model that achieved a sustainable 40% reduction in CI operational costs across the AI organization.
9.04.2025, 21:50
t.me/aspiringdatascience/2390
Repostar
1
2
36
MNIST 1D - самая прекрасно безумная работа, которую я пока увидел на ICML.

Это полусинтетический датасет, похожий на MNIST, который при этом сложнее для стандартных бейзлайнов, но при этом требует еще меньше вычислительных ресурсов. Авторы утверждают, что на этом датасете можно быстро воспроизводить всякие забавные метаэффекты типа Double Descent и Winning Lottery Tickets, используя только процессор бюджетного ноутбука.
9.04.2025, 21:48
t.me/aspiringdatascience/2389
Repostar
1
35
Это было предсказуемо: в 2024 легкая небрежность в тексте/коде окончательно стала премиальной и крафтовой. Пресный вежливый текст - значит, написано при помощи LLM (и даже без упражнений с промптами). Шероховатости придают эффект теплоты: человек не поленился и написал сам.

Например, пишет мне рекрутер, и второй абзац его письма выглядит как LLM-summary моего линкедин-профиля. Дальше как-то автоматически сложно поверить его словам, что this is exactly the type of experience they are looking for.

Или с другой стороны: проверяю тестовые задания, и довольно быстро калибруюсь. Например, много тривиальных комментариев, начинающихся с заглавной буквы и заканчивающихся точкой - явное свидетельство сгенеренного кода. Да ладно комментарии, я уже и по названиям переменных узнаю код авторства GPT.

# Init model.
model = Autoencoder.to(DEVICE)
criterion = nn.MSELoss()

Вообще, кстати, в этом тестовом использовать GPT не запрещено, но надо бы не только сгенерить решение, но и понять, что там происходит. В итоге больше всего сигнала в ответе на вопрос "почему это работает?".

В итоге умение писать кое-как теперь вообще не имеет значения, а умение писать изящно (будь то текст или код) ценится как и раньше.
9.04.2025, 21:46
t.me/aspiringdatascience/2388
Repostar
1
1
36
Дата-дривен карго культ учит, что если метрики растут, а результат на глаз выглядит не очень, то метрики первичны, ведь они как будто имеют больший охват (например, весь тестовый датасет), чем то, что может увидеть один человек невооруженным взглядом. Я и сам долгое время был адептом этого тезиса, пока не наступил на достаточное количество граблей.

Проблема в том, что сделать сбалансированную метрику или набор метрик всегда сложнее, чем кажется (завсегдатаи Kaggle не дадут соврать). Именно поэтому в реальности приходится не оптимизировать единственную метрику верхнего уровня, а делать набор метрик и следить за всеми, а потом принимать субъективное решение, когда одна метрика неизбежно вдруг пойдет вверх, а другая вниз.

Буквально вчера на работе смотрел на результаты ML экспериментов и недоумевал: вариант, который и визуально мне нравился больше, и в теории должен был быть лучше, по метрикам выглядел хуже. Заподозрил проблему в недавно задизайненной метрике, поленился доказывать теорией, сделал "модель", которая генерила рандом с определенными свойствами и тут же выбил искомые 100%. Будь это корпорация с бездумной ориентацией на KPI, можно было бы закоммитить и бездельничать до конца квартала!
9.04.2025, 21:44
t.me/aspiringdatascience/2387
Repostar
1
39
В разговорах с корешами сформулировал для себя нехитрую трехфакторную модель мотивации: процесс - цель - условия. Подчеркну "для себя" - вряд ли это универсальный фреймворк, но вдруг кому-то тоже зайдет. Попробую описать на примерах работы, но кажется, что обобщается и на прочие дела.

Процесс - собственно суть занятия (пилить пайплайны, читать свежие пейперы, ревьювить код джунов). Это кусок краткосрочной мотивации: писать хендлеры или делать фит-предикт обычно неинтересно, профайлить и оптимизировать обычно интересно. В моменте это драйвит, но если это единственная мотивация, в моменте рефлексии может накрыть мыслями "а нахера все это". И тут вылазит цель.

Цель - среднесрочная или долгосрочная, которая заставляет делать даже скучные вещи из пункта выше. Например, make the world a better place, или получить промо и стать архисеньором, или успешно сделать стартап и продать его за много миллионов, или обрести славу самой умной лягушки в пруду, чтобы все вокруг завороженно слушали твое "ква!"🐸. Цель совершенно необязательно высокая, срубить шальных денег и кутить с эскортницами - тоже вполне себе цель. Ради цели можно и унылыми делами заняться.

Условия - это скорее коэффициент для суммы двух предыдущих мотиваций. Офис с печеньками, приятные коллеги, годная инфраструктура - все идет сюда. Деньги в формате зарплаты (а точнее некоторого ее отклонения от среднерыночной) сюда же: ради Большой Цели можно и потерпеть -20% (на это стартаперы и покупают юных мечтателей).

Можно подобрать пример из другой сферы: я в целом люблю бегать (процесс) и хочу пробежать полумарафон (цель). Это позволяет выйти из дома даже в плохую погоду (условия) и преодолеть лень. Когда погода хорошая, а около дома большой парк, то и никаких усилий не понадобится 🏃‍♂️.

Напоследок про actionability: в случае фрустрации можно декомпозировать, в каком факторе просадка - так становится понятнее, что можно сделать. Где-то по мелочи улучшить условия (пофиксить flaky тесты из-за которых постоянно валится CI или купить нормальные беговые кроссовки), где-то добиться более интересных штук в моменте (шаг 0: поговорить с менеджером и хотя бы в явном виде донести свои предпочтения). С целью, конечно, сложнее всего - там малыми шагами ситуацию обычно не изменить.
9.04.2025, 21:41
t.me/aspiringdatascience/2386
3
45
#python #rust #pyo3 #bytewax

https://www.youtube.com/watch?v=Lph_7Yr9Fy0
8.04.2025, 09:02
t.me/aspiringdatascience/2385
#chess

https://www.youtube.com/watch?v=QmwDAD4MaO0
8.04.2025, 08:36
t.me/aspiringdatascience/2384
2
50
#polars

https://www.youtube.com/watch?v=jKW-CBV7NUM
7.04.2025, 06:48
t.me/aspiringdatascience/2383
2
48
#medicine #health #neuralink

"Первый пациент Neuralink Ноланд Арбоу в настоящее время освоил работу с ноутбуком, проворно управляя курсором буквально при помощи мысли. Он не только играет в стратегии, но и возобновил прерванное из-за травмы позвоночника обучение в университете в удалённом формате. До вживления имланта он от силы мог просматривать ролики на YouTube при помощи планшета, управляемого стилусом, удерживаемым в зубах.

Второй пациент Neuralink по имени Алекс (Alex) утратил подвижность четырёх конечностей в результате автомобильной аварии, после вживления имланта Neuralink он смог возобновить работу в качестве дизайнера, и теперь не только рисует эскизы, но и проектирует различные детали в специализированном ПО. В последнее время он также осваивает программирование средств автоматизации на платформе Arduino. При помощи импланта Алекс управляет смартфоном, закреплённом на специальном штативе его кресла-каталки. Он также принимает участие в эксперименте при управлении роботизированной рукой при помощи мыслей.

Третий пациент Neuralink по имени Брэд (Brad) утратил подвижность конечностей в результате бокового амиотрофического склероза (ALS в английской терминологии). Болезнь лишила его подвижности почти полностью, он был в состоянии двигать только глазами и уголками рта. До вживления импланта Neuralink передавать информацию он мог только при использовании специального ПО, отслеживающего движения глаз для ввода букв, и делать это можно было только в помещениях со стабильным и правильным освещением. По сути, это вынуждало Брэда основную часть времени проводить дома в полутьме. Вживление импланта позволило ему научиться гораздо быстрее набирать текст силой мысли, причём делать это за пределами своего дома."

https://3dnews.ru/1120848/neuralink-ishchet-novih-dobrovoltsev-dlya-ispitaniya-mozgovih-implantov-teper-po-vsemu-miru
7.04.2025, 05:40
t.me/aspiringdatascience/2382
1
47
#biology #lifeorigin

Открытие механизма абиогенного синтеза C и U нуклеотидов в 2009м впечатляет.

https://youtu.be/cgycY98yYWk?si=i_9_4nqBNir7Gerx
6.04.2025, 04:58
t.me/aspiringdatascience/2381
#physics

"Ожидается, что БАК исчерпает свои возможности к 2041 году. Энергии столкновения частиц на БАК хватило для открытия частицы Хиггса — элементарной частицы, ответственной за характеристику массы элементарных частиц. Значительное увеличение энергии столкновений на FCC способно привести к открытию новой физики — новых частиц и иных взаимодействий между ними, что ещё дальше продвинет учёных по пути понимания сути нашей Вселенной.

Для реализации проекта FCC требуется финансирование в размере $17 млрд, но на деле это наверняка будет стоить ощутимо дороже. Работы продлятся около 20 лет и если начнутся в 2028 году, как ожидает руководство CERN, то свой «первый свет» коллайдер выдаст в 2048 году.

Новое кольцо ускорителя FCC будет более чем в три раза длиннее кольца Большого адронного коллайдера: 91 км против 27 км у БАК. Тоннели FCC должны пролегать на глубине 200 м под поверхностью земли или в два раза глубже, чем у БАК. Кольцо проляжет по территории Франции и Швейцарии. "

https://3dnews.ru/1120613/evropa-tehnicheski-gotova-postroit-superkollayder-budushchego-kotoriy-budet-vtroe-bolshe-baka
5.04.2025, 19:47
t.me/aspiringdatascience/2380
#chess

https://www.youtube.com/watch?v=JQXwcw3ZlSA
5.04.2025, 07:56
t.me/aspiringdatascience/2379
#chess

https://www.youtube.com/watch?v=ArYusWI1g9k
5.04.2025, 07:46
t.me/aspiringdatascience/2378
1
47
#economics

https://www.youtube.com/watch?v=WaFKXiSB-ZE
4.04.2025, 18:26
t.me/aspiringdatascience/2377
#geology #astronomy

Стив Бушеми стал учёным )

https://youtu.be/WJRQ_feSfzA?si=_y6skJ3-ogN0EKP8
4.04.2025, 09:19
t.me/aspiringdatascience/2376
4
50
#automl #lama

https://www.youtube.com/watch?v=KPe0aYkzwOY
4.04.2025, 02:11
t.me/aspiringdatascience/2375
1
57
#basic #gates

"Altair BASIC он назвал «самым крутым кодом, который я когда-либо писал». Источником вдохновения для этого проекта послужил номер журнала Popular Electronics за январь 1975 года — на его обложке был компьютер Altair 8800, побудивший Гейтса заняться разработкой ПО. Он и Аллен обратились в выпустившую компьютер компанию MITS (Micro Instrumentation and Telemetry Systems) и предложили интерпретатор языка программирования BASIC для этой модели.

Этот продукт позволил бы большому числу пользователей с лёгкостью создавать собственные программы, но Гейтсу и Аллену потребовались несколько месяцев, чтобы добиться этого результата. Altair BASIC стал первым продуктом, который Гейтс и Аллен разработали для новой компании, тогда называвшейся Micro-Soft, а от дефиса они избавились позже. Исходный код занимает 157 страниц."

https://3dnews.ru/1120740/k-50letiyu-microsoft-bill-geyts-opublikoval-samiy-krutoy-kod-kotoriy-kogdalibo-pisal
3.04.2025, 20:58
t.me/aspiringdatascience/2374
#politics

О, как и сообщала компания СВР & Соловей еще год назад, талибов собираются "ратифицировать". В то же время в тюрьму сажают честных смелых людей, которые высказываются против войны, а террористами признают журналистов и россиян, делавших небольшие пожертвования в ФБК на борьбу с коррупцией в стране.

"Новость дня, которая многое говорит о сегодняшней России.

Генпрокуратура попросила Верховный Суд разрешить в России движение «Талибан»

Исковое заявление за подписью генерального прокурора уже поступило в Верховный Суд и принято к производству. Заседание назначено на 17 апреля. Проведёт его судья Олег Нефёдов, который в ноябре 2023 года признал «экстремистским» и запретил в России несуществующее «движение ЛГБТ».
Надзорное ведомство просит приостановить запрет на деятельность движения «Талибан», которое находится в списке террористических организаций больше 20 лет.

В суде уже уточнили, что заседание пройдет в закрытом режиме. То есть журналисты скорее всего не услышат причин, по которым Генпрокуратура считает талибов друзьями.

Несмотря на запрещенный статус, представители «Талибана» уже несколько лет ездят на официальные мероприятия в Россию: они принимали участие в международных форумах в Санкт-Петербурге и Казани, где обсуждали борьбу с терроризмом, наркотрафиком и высказывались о проблемах образования. В прошлом году Путин назвал их «союзниками».

В декабре Госдума приняла закон, позволяющий исключать организации из списка террористических. Ранее эту идею поддержали в Минюсте и Министерстве иностранных дел.

Напомним, что талибы пришли к власти в Афганистане в 2021 году. Они запрещают женщинам учиться даже в начальной школе, выходить на улицу без чадры, ходить в спортзалы и гулять в парках с мужчинами. Представители движения неоднократно говорили о намерении забивать женщин камнями за измены, а также публично пороть."
1.04.2025, 17:32
t.me/aspiringdatascience/2373
1
1
70
#music #poetry #gpt

"А ты подбросила мне грамм" )

"Here it comes, it's beginning now,
Someone knocks, hear the knocking sound.
Soon the door will be breaking down,
It won’t hold, they will force it out.

Hello, I knew,
The final act would come for me and you.
I knew,
But never thought it’s you—
Them and you,
With those honest eyes so true.
You recall, I said before,
Love will strike us to the core.

It could have been another face,
But for you, it was set in stone—
Drop a gram, then leave no trace,
Wear a badge and play their role.

Hello, I knew,
The final act would come for me and you.
I knew,
But never thought it’s you—
Them and you,
With those honest eyes so true.
You recall, I said before,
Love will strike us to the core.

And you planted me that gram..."

https://www.youtube.com/watch?v=o0e3NYC6tjE
31.03.2025, 20:28
t.me/aspiringdatascience/2372
2
5
54
#fairness #weights

Извечный вопрос: большая модель для всей популяции, или индивидуальные модели для подгрупп?

Автор предлагает еще более успешную альтернативу - учиться на всём датасете, а для нужной подгруппы использовать большие веса.

И даже подбирать веса важной группы на CV - хотя тут CV будет нестандартной, ибо веса не являются гиперпараметром модели, формально они на самом деле параметры метода fit )

https://www.youtube.com/watch?v=REIg5NH2SNc
31.03.2025, 10:30
t.me/aspiringdatascience/2371
4
50
#nlp #skrub #topicmodelling

Другой компонент для той же задачи.

https://www.youtube.com/watch?v=l7y7gBpGa5U
31.03.2025, 10:25
t.me/aspiringdatascience/2370
5
55
#nlp #pca #dimreducers

Интересный рецепт: блок, дающий разреженные (sparse) признаки, после него PCA, дающий на выходе уже разумное количество плотных (dense) признаков.

https://www.youtube.com/watch?v=x7RX8VprCnE
31.03.2025, 01:41
t.me/aspiringdatascience/2369
5
53
#nlp #minhashencoder #skrub

Dirty categories - наше всё )

https://www.youtube.com/watch?v=ZMQrNFef8fg
31.03.2025, 01:19
t.me/aspiringdatascience/2368
1
6
51
#hpo #hpt

Забавная иллюстрация важной концепции - устойчивости оптимального решения.

https://www.youtube.com/watch?v=vC9sAD-ymhk
31.03.2025, 01:03
t.me/aspiringdatascience/2367
1
5
58
#sklearn

А вот пример роутинга метаданных в sklearn, появившийся относительно недавно. Раньше подобных эффектов (передачи произвольных именованных массивов/объектов любым компонентам конвейера) можно было достичь лишь частично, с использованием глобальных переменных, что к тому же было ненадёжно, неэлегантно и криво.

https://www.youtube.com/watch?v=lQ_-Aja-slA
30.03.2025, 19:51
t.me/aspiringdatascience/2366
4
59
#skrub #tablevectorizer

Реальный пример работы с библой очистки данных skrub.

https://www.youtube.com/watch?v=wn0g1wBzDfQ
30.03.2025, 19:41
t.me/aspiringdatascience/2365
9
58
#hpo #hpt #optuna

Приятное интро в Оптуну, с примерами, в т.ч. пруннинга. Вообще у него классный ютуб-канал по ML/DS, такие темы отличные поднимает, и очень продуктивный лектор.

https://www.youtube.com/live/QejQVLkkgRA?si=eiBKOrAQ6bbt4y24
30.03.2025, 15:46
t.me/aspiringdatascience/2364
2
62
#automl #tabpfn

А вот и Фрэнк на подкасте.

https://www.youtube.com/watch?v=BAYsT0wxP90
30.03.2025, 05:35
t.me/aspiringdatascience/2363
1
4
67
#ensembling #tabm #anns

Из интересного:

эмбеддинги непрерывных признаков позволяют лучше учиться - выучивают "высокочастотные" зависимости, делают сеть НЕинвариантной к поворотам
ансамбли оптимизируются как единое целое, синхронно по итерациям


https://www.youtube.com/watch?v=qpdGUFF7vsI
29.03.2025, 20:42
t.me/aspiringdatascience/2362
5
6
52
#timeseries #ensembling #hetboost #pmdarima #todo

Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.

Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.

В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.

В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.

Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).

Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.

На этот год планирую сравнительное исследование )

Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.

Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
26.03.2025, 21:14
t.me/aspiringdatascience/2361
1
45
#fun
25.03.2025, 10:46
t.me/aspiringdatascience/2360
#mlops

Надо бы этот bulwark посмотреть.

https://youtu.be/dxUMBVTvbWw
25.03.2025, 09:49
t.me/aspiringdatascience/2359
1
44
#mlops

https://drivendata.co/insights
25.03.2025, 09:48
t.me/aspiringdatascience/2358
2
50
#skrub

Эту полезную либу мы уже рассматривали. Есть поддержка поларс, надо бы проверить.

https://youtu.be/Oho53bvl4rg?si=pDGUanxgDycLvvBr
25.03.2025, 01:41
t.me/aspiringdatascience/2357
2
48
#zarr

https://youtu.be/OYaMi9WnQpA?si=zSkQ5184OBiCR1dw
25.03.2025, 01:29
t.me/aspiringdatascience/2356
1
48
#tdd #hypothesys

https://youtu.be/NL7-eNPr_oI?si=jGWiTJHWA4EUQT87
25.03.2025, 01:07
t.me/aspiringdatascience/2355
не хочешь через часок в буфет сходить?
24.03.2025, 14:51
t.me/aspiringdatascience/2354
1
51
#polars

https://youtu.be/GOOYbl3cqlc?si=wz4UT5WEEiKnko7z
24.03.2025, 06:52
t.me/aspiringdatascience/2353
2
44
#polars #functime

https://youtu.be/XpLfIpWZtt8?si=AvyLavBPd7oDJ5kc
24.03.2025, 05:53
t.me/aspiringdatascience/2352
1
46
#polars #functime

https://youtu.be/q1pN_Sg84h4?si=m-ax_W0fdPu9AGIb
24.03.2025, 05:27
t.me/aspiringdatascience/2351
#polars

Они вкладываются еще и в парсинг паркета с помощью simd, как будто у них и так уже не лучший парсер. Круто.

https://youtu.be/yYAVrVMGaMY?si=eQh5dhZfdEyZC-NK
19.03.2025, 13:40
t.me/aspiringdatascience/2350
#polars

https://youtu.be/kVy3-gMdViM?si=v7lxw9Dy3IZfrn6a
19.03.2025, 12:09
t.me/aspiringdatascience/2349
#polars

https://youtu.be/584AHQA9d8I?si=vbjSm6JaFMG9tvv3
19.03.2025, 11:11
t.me/aspiringdatascience/2348
#astronomy #blackholes

https://youtu.be/CpHjxBAiSN4?si=YRPjNr9Vy3NJn9wt
18.03.2025, 06:51
t.me/aspiringdatascience/2347
#tesla #security

"Давно известно, что Tesla активно избавляется от лишних, по её мнению, датчиков на своих электромобилях, неустанно повторяя, что человеку для оценки дорожной обстановки достаточно глаз и головного мозга. Системы активной помощи водителю Tesla в настоящее время полагаются преимущественно на данные, получаемые с комплекса бортовых камер. Более осторожные автопроизводители предпочитают добавлять как минимум ультразвуковые датчики, а в идеале полагаться на данные оптических радаров (лидаров), распознающих препятствия даже в условиях ограниченной видимости.

Блогер Марк Робер сравнил эффективность систем автопилота, оснащённых лидаром и полагающихся исключительно на изображения с камер. В первом случае испытывался прототип на базе кроссовера Lexus, оснащённый дополнительным оборудованием, включая лидар. Во втором случае с ним сравнивалась штатная бортовая система Tesla Model Y. Последней, как пришлось выяснить по итогам серии экспериментов, не удалось обнаружить манекен пешехода в условиях сильного тумана или дождя."

https://youtu.be/IQJL3htsDyQ?t=968
17.03.2025, 18:04
t.me/aspiringdatascience/2346
1
51
#ai

"Сначала они тобой впечатлены, потом они тебя запрещают (

DeepSeek"

https://3dnews.ru/1119798/openai-predlogila-zapretit-yazikovie-modeli-deepseek-v-ssha
17.03.2025, 17:52
t.me/aspiringdatascience/2345
1
49
#ai #fun

Китайцы жгут. Особенно поржал с новости про лошадей и близлежащие фермы.

https://3dnews.ru/1119810/kitay-na-volne-patriotizma-vnedryaet-deepseek-vo-vseh-sferah-gizni-bez-razbora
17.03.2025, 17:50
t.me/aspiringdatascience/2344
1
54
#polars

https://youtu.be/GTVm3QyJ-3I?si=nV_TPIXi7ZZE0XEN
16.03.2025, 23:32
t.me/aspiringdatascience/2343
#ai #security

"Авторы статьи считают, что государства должны отдавать приоритет доктрине сдерживания, а не победе в гонке за искусственный сверхразум. MAIM подразумевает, что попытки любого государства достичь стратегической монополии в области ИИ столкнутся с ответными мерами со стороны других стран, а также приведут к соглашениям, направленным на ограничение поставок ИИ-чипов и open source моделей, которые по смыслу будут аналогичны соглашениям о контроле над ядерным оружием.

Чтобы обезопасить себя от атак на государственном уровне с целью замедлить развитие ИИ, в статье предлагается строить ЦОД в удалённых местах, чтобы минимизировать возможный ущерб, пишет Data Center Dynamics."

https://servernews.ru/1119678
14.03.2025, 17:04
t.me/aspiringdatascience/2342
1
54
#mysteries #criminology

Впервые вижу, что так прямо и адресно обвиняют в уголовном преступлении высших должностных лиц. Респект.

https://www.youtube.com/watch?v=84QcUGFAqiY
14.03.2025, 06:50
t.me/aspiringdatascience/2341
#music #poetry #fantasy

"Beyond desertic fields of ice
Monstrous winds claim for their homeland
Defied, everything that stands still
Is hit by the cold in their hearts
Sung is this desolating
Victory, by the dead trees and the
Troubling choirs of tortured wind
Enchanting melodies of the Dark

Beyond the magnanimity
Of white snow's claimed purple gardens
One grand crystal palace was built
Symbol of the ruling of death
Hidden in a crystalline room
Stands the only living flower
Trapped in a magic box of the
Only ice beholder of a spark

Lost once more, I don't know where to go
Lost the sacred memory
I forgot, where am I from?
One broken branch from the grapevine

Lost my only heart's bed
No where can he rest all peacefully laid
Another lost wanderer was born
How could I lose myself so easily?

Behold the magic
From Gaia's darkest child's
Relentless lips
Kissing all your sins

Seduced, I finally
Stood still against the wind
My heart was not cold
My heart was no more

In the realm of Forever-Night,
My one and, one and only, my only heart is lost

The only thing for me to do is to
Free the last flower from its wicked prison
It has the power to unveil the truth and the honor
But this Forever-Night will last until Aeon's dawn

Beyond snow's invaded lands
An infant hides and stares at the sky
Covered by the dying clouds
Of greyness and of emptiness
Beyond the Forever-Night
An infant deprived from her heart
Gets up and begins his last walk
She's heading for the crystal palace

...where her last hope still lives"

https://soundcloud.com/anemonia/02-enchanting-melodies-of-eternal-nights
13.03.2025, 20:22
t.me/aspiringdatascience/2340
#ai #llms #gpt

"В моделях семейства GigaChat 2.0 улучшена работа с контекстом беседы: они способны отвечать на сложные длинные вопросы и анализировать увеличенные объёмы текста. Если ранее максимальный объём составлял 48 страниц A4 (шрифт 14 pt), то теперь этот показатель вырос до 200 страниц. Это позволяет создавать более качественные чат-боты на основе GigaChat 2.0. Вдвое увеличилась способность следовать инструкциям пользователя, а качество ответов на вопросы повысилось на 25 %.

Флагманская GigaChat 2 MAX заняла первое место среди ИИ-моделей в независимом тесте MERA для русского языка. В бенчмарках MMLU на русском и английском она показала результаты на уровне мировых лидеров и по некоторым критериям превзошла их."

https://3dnews.ru/1119676/sber-predstavil-silneyshiy-russkoyazichniy-ii-gigachat-20
13.03.2025, 19:16
t.me/aspiringdatascience/2339
#qunatumcomputing #dwave

"Как рассказал Эндрю Кинг (Andrew King), старший научный сотрудник D-Wave, моделирование нового материала со сложным магнитным полем с помощью квантового компьютера было выполнено менее чем за 20 минут. У ведущего суперкомпьютера Ок-Риджской национальной лаборатории аналогичная задача заняла бы около миллиона лет для достижения того же уровня детализации.

В компании заявили, что эта демонстрация стала первым случаем применения квантового компьютера для решения задач, имеющих практическое применение. По словам Бараца, возможность моделировать новые магнитные материалы, широко используемые в промышленности, означает, что их свойства могут быть изучены ещё до запуска в производство.

Подход D-Wave заметно отличается от методологии других разработчиков квантовых компьютеров. Вместо того чтобы пытаться создать универсальный квантовый компьютер, способный решать практически любые задачи, D-Wave выбрала более узкоспециализированный подход — квантовый отжиг. Эта технология лучше всего подходит для решения сложных оптимизационных задач, а также для некоторых видов моделирования материалов.

Несмотря на более узкую сферу применения, эта технология остаётся востребованной в бизнесе. Например, квантовая система хорошо справляется с «задачей коммивояжёра» — поиском оптимального маршрута между большим количеством различных точек.

В эксперименте был задействован прототип квантового компьютера Advantage2, который насчитывает более 1200 кубитов и более 10 000 «каплеров» (couplers) и доступен для клиентов D-Wave через облачный квантовый сервис Leap в реальном времени. Этот прототип значительно быстрее систем Advantage предыдущего поколения и позволяет находить более качественные решения для больших и сложных задач, отмечает производитель. Более того, в настоящее время D-Wave располагает процессором Advantage2, который в четыре раза превышает по мощности задействованный в эксперименте прототип.

D-Wave утверждает, что её машины коммерчески полезны уже много лет, хотя компании с трудом удаётся построить масштабный бизнес. Первые три квантовых компьютера она продала 14 лет назад, в том числе один консорциуму, в который входили Google и NASA, а затем перешла к продаже доступа к своей технологии через облако. За первые девять месяцев 2024 года выручка компании составила всего $6,5 млн, а убыток — $57 млн. Тем не менее в D-Wave считают, что четверть века, потребовавшиеся на достижение квантового превосходства, — вполне разумный срок по сравнению с десятилетиями, которые понадобились для коммерциализации традиционных компьютеров после изобретения транзистора."

https://3dnews.ru/1119636/eto-svyatoy-graal-kvantovih-vichisleniy-dwave-dostigla-kvantovogo-prevoshodstva
13.03.2025, 09:57
t.me/aspiringdatascience/2338
#astronomy

"Обсерватория SPHEREx впервые проведёт полный обзор неба в 102 «цветах» инфракрасного спектра. Известно, что длина волны света растягивается по мере движения по Вселенной, смещаясь в красную и инфракрасную области, после чего становится невидимой человеческому глазу. Именно эта область спектра несёт информацию о заре Вселенной. Инфракрасный телескоп SPHEREx соберёт данные об эпохе реионизации, когда начали светить первые звёзды, а также заглянет сквозь завесы пыли и газа в поисках следов льда.

Ожидается, что за два года работы SPHEREx соберёт данные о более чем 450 млн галактик и свыше 100 млн звёзд в Млечном Пути. Телескоп будет работать примерно в том же диапазоне, что и «Джеймс Уэбб», но с гораздо более широким охватом. Благодаря широкоугольной оптике обсерватория проведёт первый полный обзор неба уже за первые шесть месяцев наблюдений. Это будет колоссальный объём данных.

Комплекс спутников PUNCH предназначен для трёхмерного наблюдения за процессами в солнечной короне и верхних слоях атмосферы Солнца. Один из аппаратов оснащён узконаправленным телескопом с коронографом для изучения солнечной короны, а три других имеют широкоугольные датчики для поляриметрии. Наблюдение за поляризацией солнечного излучения позволяет воссоздать процессы, происходящие в верхних слоях атмосферы Солнца и его короне.

Данные со всех четырёх аппаратов PUNCH позволят воспроизвести солнечную динамику в максимально полном объёме. Это необходимо для изучения механизмов формирования солнечного ветра и, в конечном итоге, для разработки долгосрочных прогнозов космической погоды. Солнечный ветер и выбросы плазмы могут оказывать влияние на электронику космических аппаратов и наземную инфраструктуру. Кроме того, они воздействуют на климат Земли и на биологические процессы, включая здоровье людей. Изучение Солнца особенно важно, поскольку учёные до сих пор не полностью понимают физику его процессов."

https://3dnews.ru/1119590/nasa-zapustilo-kosmicheskie-teleskopi-punch-i-spherex-dlya-raskritiya-tayn-solntsa-i-ranney-vselennoy
12.03.2025, 17:06
t.me/aspiringdatascience/2337
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa