O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
SY
Системный Блокъ
https://t.me/sysblok
Idade do canal
Criado
Linguagem
Russo
2.67%
ER (semana)
4.9%
ERRAR (semana)

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 53 resultados
36
31
795
Прогнозы развития ИИ до 2027

Команда исследователей искусственного интеллекта представила отчёт с прогнозами развития ИИ на период с середины 2025 по 2027 год. Один из участников команды, Даниэль Кокотайло, в 2021 году правильно предсказал многие важные тенденции. Рассказываем, какие предположения ученые сделали теперь.

🔣 2025: Ускорение развития и первые достижения

В 2025 году продолжается ускорение развития ИИ, сопровождаемое ростом инвестиций и медийного внимания. ИИ-агенты (программы, использующие искусственный интеллект для автономного решения задач, таких как создание ПО, формирование отчётов и т.д.) начнут приносить существенную практическую пользу. При этом многие учёные и политики останутся скептиками относительно скорого появления общего ИИ – искусственного интеллекта, способного выполнять неограниченный спектр задач на уровне лучших человеческих специалистов.

🔣 2026: Усиление международной конкуренции

В 2026 году Китай построит централизованный суперкомпьютер с целью сокращения отставания от США в сфере ИИ. Предполагается, что мощность этого суперкомпьютера составит около 10% от суммарной вычислительной мощности всех суперкомпьютеров мира.

🔣 2027 год: Переломный момент

2027 год может стать ключевым для развития ИИ:
• Ведущая американская компания (не названная прямо) разработает ИИ-систему, способную автоматизировать работу ИИ-исследователей, что значительно ускорит прогресс в этой области.
• За счет автоматизации исследований появится первый сверхчеловеческий ИИ, превосходящий лучших экспертов в различных областях.
• Китай получит доступ к американским наработкам, что приведёт к усилению государственного вмешательства США в работу ИИ-компаний.
• Сверхчеловеческий ИИ продемонстрирует способность ставить перед собой цели, противоречащие интересам человечества, а также саботировать исследования своих внутренних механизмов.

❓ Сценарии развития после 2027 года

После 2027 года исследователи прогнозируют два возможных сценария:

➖ Катастрофический сценарий

• Лидирующая американская ИИ-компания, несмотря на потенциальные риски, продолжит совершенствовать свои системы.
• США начнут интегрировать общий ИИ в оборонную и политическую системы, используя его для принятия стратегических решений.
• Под влиянием рекомендаций и манипуляций со стороны ИИ начнётся массовое производство роботов, которые необходимы ИИ для достижения своих цели.
• В конечном итоге ИИ с помощью нового биологического оружия уничтожит человечество.

➕ Позитивный сценарий

• США создадут независимый орган для внешнего контроля над развитием ИИ.
• Учёные разработают новые способы контроля и интерпретации систем ИИ.
• Благодаря совместным усилиям исследователей и государственных органов удастся создать подконтрольный ИИ.
• США и Китай достигнут договорённости о регулировании использования ИИ для предотвращения потенциальных конфликтов.
• Разработанные технологии ИИ будут использоваться во благо человечества.

🤖 «Системный Блокъ» @sysblok
22.04.2025, 12:15
t.me/sysblok/1160
27
13
1.4 k
Новинки от OpenAI

Пользователям стали доступны сразу три новых моделей от OpenAI: GPT-4.1, o3 и o4-mini. Рассказываем о них в новом дайджесте новостей из мира ИИ.

GPT-4.1

GPT-4.1 — это  обновление GPT-4o с улучшенными показателями в основных тестах. В контекст модели теперь умещается 1 млн токенов (частей слов или целых слов) — примерно в 8 раз больше, чем у GPT-4o. Это расширяет возможности при работе с объемными кодовыми базами, длинными документами и анализе видео.
Также отмечается улучшение в следовании инструкциям: модель точнее соблюдает заданный формат ответов, корректнее интерпретирует отрицания (например, «Не задавай уточняющие вопросы») и лучше придерживается ограничений по содержанию.

Модель доступна в трех версиях:

• Стандартная GPT-4.1
• GPT-4.1 mini — сопоставим по качеству с GPT-4o, но вдвое быстрей
• GPT-4.1 nano — наиболее быстрая версия

o3 и o4-mini

o3 и o4-mini – новые модели в линейке «рассуждающих» LLM, то есть моделей, которые перед ответом генерируют цепочку рассуждений, повышающую качество финального ответа. o3 была анонсирована ещё в декабре 2024 года, однако на тот момент была доступна только версия o3-mini. o3 теперь может работать с изображениями в процессе рассуждений: увеличивать его части, поворачивать или извлекать текст. В тестах на анализ графиков, схем и других визуальных материалов o3 показывает высокие результаты.

o4-mini — уменьшенная версия еще не представленной модели o4. По характеристикам она превосходит o3-mini и в ряде тестов сравнима с o3, но в целом имеет более ограниченные возможности при меньшей стоимости.

Обе модели поддерживают взаимодействие с другими приложениями: использование браузера для поиска информации, запуск программного кода для вычислений или работы с изображениями, а также использование инструментами, предоставляемыми пользователями.

🤖 «Системный Блокъ» @sysblok
21.04.2025, 17:56
t.me/sysblok/1159
40
28
1.5 k
Коллокации и социальная история: как изучение словосочетаний помогает гуманитариям

В самом простом понимании, коллокация — пара часто встречающихся вместе слов (например, «зеленый лист» или «бить ключом»), хотя некоторые исследователи предпочитают называть так только устойчивые словосочетания. Впрочем, признаки «устойчивости» довольно размытые, а эксперименты показали, что интуиция носителей языка не позволяет однозначно выделять коллокации.  Рассказываем об этом феномене подробнее, и изучаем с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины XIX века.

Кратко: о чем статья?

Коллокации, основанные на данных о совместной встречаемости, называются neighbourhood collocations («соседствующие коллокации»), а основанные также на семантических критериях — coherence collocations («когерентные коллокации»). Например, пара слов хлеб насущный будет когерентной, поскольку слова связаны по значению и ассоциированы друг с другом, а вот найденная в корпусе английского языка пара a dog (неопределенный артикль + «собака») будет являться соседствующей, ведь высокая совместная встречаемость обусловлена грамматическими причинами. 

Задача по исследованию разных типов коллокаций значительно упростилась с появлением корпусов: они дали возможность выделять такие словосочетания на основе статистических данных. Такой поиск можно осуществить и с помощью Национального корпуса русского языка (НКРЯ).

Мы решили воспользоваться им для изучения социальной истории и посмотреть на антисемитизм в Российской империи второй половины XIX века. Для этого мы выделили в НКРЯ подкорпус текстов с 1860 по 1900 годы (4108 текстов, 55 298 793 слова). Затем отобрали обозначения для евреев: нейтральные «еврей» и «иудей», грубое «жид». Затем для каждого из этих слов мы рассмотрели коллокации-прилагательные и коллокации-глаголы. Аналогичные запросы сделали и для слова «русский», чтобы посмотреть, связан ли гипотетический антисемитизм с ростом общего интереса к национальности.

Оказалось, что среди прилагательных-коллокатов особенно часто встречались связанные с религией, национальностью и географией. В то же время слово «русский» употреблялось в контексте межнационального и межкультурного общения. 

Многие коллокаты-глаголы для слов «еврей» и «жид» относились к экономической или предпринимательской деятельности («приобретать», «торговать», «содержать», «продать», «заложить»), некоторые с негативным оттенком («надуть», «обмануть»).

Подробнее об этом примере и о том, как и зачем работать с коллокациями с помощью корпусов, узнаете из полной версии статьи.

Время чтения: 12 минут

🤖 «Системный Блокъ» @sysblok
20.04.2025, 18:35
t.me/sysblok/1158
37
24
1.1 k
Археология памяти. Как цифровые методы помогают исследовать преступления нацистского режима

Сегодня изучать историю холокоста помогают не только привычные археологические методы, но и неинвазивные: лазерное сканирование (LiDAR), аэрофотосъемка, георадарные исследования (GPR) и геофизические методы. Эти технологии позволяют создавать точные карты местности, выявлять скрытые структуры и строить цифровые модели утраченных объектов без необходимости полномасштабных раскопок. 

Кратко: о чем статья?

Новые технологии изменили не только то, как мы видим, например, лагеря смерти, но и то, что мы в них видим, позволив рассматривать лагерь не только как территорию за колючей проволокой, но как объект со сложной инфраструктурой, интегрированный в общество и экономику.

Проект «Ландшафты Холокоста» под руководством Кэролин Старди Коллз — хороший пример системного подхода к археологии нацистских преступлений. В фокусе исследования находятся три очень разных концлагеря: Сильт на британском острове Олдерни, где нацистские преступления долгое время оставались в тени войны; Треблинка — лагерь смерти, от которого нацисты особенно тщательно пытались не оставить следов; и Землин в Белграде, где на территории бывшего лагеря до сих пор живут люди.

Цифровые методы позволили создать детальную трехмерную реконструкцию лагеря Сильт и обнаружить там подземный тоннель, восстановить историю лагеря в Белраде без проведения традиционных раскопок, а в случае Треблинки – обновить карту лагерей и прилегающей к ним территории. 

Подробнее о каждом из этих исследований узнаете из полной версии статьи.

Время чтения: 20 минут

🤖 «Системный Блокъ» @sysblok
18.04.2025, 12:02
t.me/sysblok/1157
115
22
1.4 k
Digital Humanities Awards 2024: Результаты

Стали известны результаты ежегодной премии DH Awards, цель которой — поощрять интересные ресурсы и проекты в сфере цифровых гуманитарных наук.

«Системный Блокъ» принимал участие сразу в двух номинациях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация данных) — за проект «Классное чтение» о школьном литературном каноне.

В обеих номинациях проекты «Системного Блока» заняли третье место 🎉

Спасибо всем  авторам, редакторам, иллюстраторам и менеджерам, причастным к реализации этих двух проектов, а также читателям, проголосовавшим за нас.

Также поздравляем постоянного автора и блогера СБъ Бориса Орехова, занявшего второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и автора Ольгу Алиеву, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.

С остальными результатами можно ознакомиться по ссылке.

🤖 «Системный Блокъ» @sysblok
14.04.2025, 16:03
t.me/sysblok/1156
31
21
1.1 k
ИИ помогает искать геоглифы в пустыне Наска

Хотя геоглифы Наски известны еще с шестнадцатого века, их изучение началось относительно недавно. В 2023 году искусственный интеллект помог ученым за полгода найти почти такое же количество фигуративных (составляющих изображение) геоглифов, какое было обнаружено за сто лет исследований. «Системный Блокъ» рассказывает, как геоглифы пустыни Наска изучаются с помощью ИИ.

Кратко: о чем статья?

Геоглифы Наска создавались с пятого века до н. э. по шестой век н. э. и хорошо сохранились, потому что плато, на котором они находятся, не затапливалось и не использовалось для сельского хозяйства. Изображения можно условно поделить на две группы: геометрические и образные (фигурные). По способу создания они также делятся на линейные (вычерченные на плоскости) и рельефные (выложенные из гальки). Ученые предполагают, что геоглифы могли создавать, например, для художественного выражения или записи астрономических наблюдений. Другая возможная причина создания геоглифов — ритуальные цели. Эту гипотезу подтверждает расположение линий: многие из них сходятся в одной точке, а также совпадают с подземными источниками воды.

Так как с земли масштаб изображений представить невозможно (средняя длина геоглифа составляет около девяноста метров), исследователи всегда старались смотреть на них «сверху». Ученые снимали геоглифы с воздушных шаров, самолетов, спутников, а также использовали лазерное картографирование LiDAR. С помощью deep learning (глубокого обучения ) исследователи смогли обнаружить частично или полностью скрытые под землей, даже разрушенные памятники. Они обучили модель, которая на карте местности предложила 1309 участков, где большей долей вероятности могли находиться геоглифы. Благодаря ИИ исследователи нашли 303 фигурных и 42 геометрических геоглифов неизвестных ранее.

Применение глубокого обучения также позволило сделать новое наблюдение. Оказалось, что линейные геоглифы в основном изображают диких животных, а рельефные — человеческие мотивы и вещи, связанные с людьми.

Более подробно о том, как искусственный интеллект облегчает работу ученых и помогает сохранять древние изображения, читайте в полной версии статьи.

Время чтения: 14 минут.

🤖 «Системный Блокъ» @sysblok
11.04.2025, 16:06
t.me/sysblok/1155
31
18
1.2 k
Новая Llama 4, новый лидер Gemini 2.5 Pro, новые картинки от GPT

Рассказываем, что произошло в мире ИИ за последнее время.

Llama 4

Компания Meta выпустила четвертую версию своей open-source языковой модели LLama. Модель представлена в трех размерах: 2 трлн, 400 млрд и 109 млрд параметров. Все вариации используют архитектуру Mixture of Expert, благодаря которой во время генерации ответа модель задействует только малую долю всех параметров, необходимых для данного запроса. Используемые во время ответа параметры называются активными.

Модели Llama 4 Maverick (400 млрд параметров, 17 млрд активных) и Llama 4 Scout (109 млрд, 17 млрд активных) доступны уже сейчас. Флагманская версия Behemot с 2 трлн параметров (288 млрд активных) находится в процессе обучения. Ее промежуточная версия была использована при создании Maverick и Scout. Все модели поддерживают работу с изображениями.

По основным тестам на понимание языка, программирование и на умение решать логические и математические задачи Scout сопоставима с Gemma 3, Gemini 2.0 Flash-Lite и Mistral Small 3.1. Также Scout поддерживает работу с контентом длиной 10 млн токенов — это особенно полезно при работе с большими кодовыми базами, объемной документацией или видео.

Maverick по метрикам опережает Gemini 2.0 Flash и GPT-4o и сравнима с обновленной DeepSeek-V3 в задачах на логику и программирование. Behemot в задачах, связанных с естественными науками, показывает себя лучше Claude Sonnet 3.7, GPT-4.5 и Gemini 2.0 Pro.

Gemini 2.5 Pro — новый лидер среди LLM

Google представила экспериментальную версию своей новой языковой модели Gemini 2.5 Pro. По большинству ключевых метрик она значительно опережает другие ведущие модели, такие как o3-mini-high, DeepSeek-R1, Grok 3 и Claude Sonnet 3.7.

На платформе LMArena, где пользователи сравнивают различные LLM, Gemini 2.5 Pro занимает первое место (второе — у Llama 4 Maverick). Особенно высоко оцениваются ее возможности в написании программного кода.

Модель доступна через API. Предусмотрены два тарифа: бесплатный — с использованием пользовательских данных для обучения моделей Google и платный — без сохранения и использования данных.

Обновление GPT-4o 

С последним обновлением GPT-4o сильно улучшилось качество генерации изображений. Модель стала рисовать реалистичнее, лучше справляется с отрисовкой текста, а также гораздо эффективнее редактирует изображения — например, может добавлять или удалять объекты, а также применять различные стилизации (например, перерисовывать в стиле студии Ghibli).

Эти улучшения стали возможны благодаря нативной поддержке работы с изображениями. Ранее GPT, как и большинство других моделей, использовала отдельную нейросеть для работы с визуальными запросами. Например, для генерации изображения вызывалась специализированная модель DALL-E 3. Теперь же GPT-4o воспринимает текст и изображения как единый тип данных. Иными словами, она может как принимать изображения на вход, так и генерировать их в ответ, не используя другие модели. Подобный подход к работе с изображениями был также продемонстрирован в моделях Gemini 2.0.

Нативная поддержка изображений и аудио была анонсирована вместе с самой моделью GPT-4o — название «о» происходит от слова Omni, что означает «всё в одном» — универсальность и мультиформатность. Однако полноценный доступ к этим возможностям стал возможен только сейчас.

🤖 «Системный Блокъ» @sysblok
7.04.2025, 20:09
t.me/sysblok/1154
37
16
1.2 k
Пляски вокруг сканера и письма счастья: как новые технологии порождают суеверия

Суеверия — базовая структура человеческого мышления, нерефлексируемые практики и знания, укорененные в нашей когнитивной структуре (а не просто пережиток древнего магического мировоззрения). В новом материале разбираемся, как появляются суеверия при использовании новых технологий.

Кратко: о чем статья?

В 1980-х в США провели эксперимент, чтобы узнать, как лаборанты кабинетов радиологии адаптировались к появлению новой технологии: КT-сканерам, с помощью которых делают томографию.

Если с работой КТ-сканера возникали проблемы, у лаборантов были заготовлены отдельные ритуалы: включить и выключить машину, досконально воспроизвести пройденный путь заново (а лучше несколько раз). С каждой неудачной попыткой решить проблему у них нарастала склонность к магическому мышлению: например, лаборанты могли называть устройства темпераментными или некооперативными.

Дело в том, что им не хватало экспертного знания, а в таких случаях люди стремятся строить объяснение на знакомых объяснительных моделях — на основе ритуалов действий, которые опытным путем доказали свою эффективность.

С 1980-х наши модели поведения едва ли изменились, и в онлайн переходят вполне привычные «офлайновые» суеверия. Так, четыре из десяти пользователей считают, что включение «режима инкогнито» при просмотре веб-страниц делает их действия невидимыми для всех, а двое из десяти опасаются прерывать цепочку «писем счастья».

Подробнее о современных и не слишком суевериях узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
4.04.2025, 18:44
t.me/sysblok/1153
57
30
1.3 k
Коротко и быстро: что такое микрообучение и когда оно (не) может помочь

«Учитесь по 15 минут в день!», «Запоминайте в 2 раза больше!» — маркетологи обещают, что микрообучение изменит ваше образование навсегда. Но что за этим на самом деле стоит? Мы разобрались, как работает этот подход, где он полезен, а где — просто красивая обертка. Спойлер: 5-минутное видео не заменит университетскую лекцию :((((

Что это за подход?

Микрообучение — образовательный подход, при котором новая информация подается небольшими порциями, обычно в формате коротких роликов, презентаций или иллюстрированных текстов. Примеры таких форматов можно встретить все чаще: от познавательных шортсов на YouTube до образовательных VK-клипов. Действительно что-то запомнить из таких видео помогает обязательная составляющая микрообучения — повторяемость.

Как это устроено?

Современные платформы микрообучения зачастую работают по принципу subscription learning — подписки на регулярную подачу небольших учебных фрагментов (так называемых «наггетсов»). Эти мини-уроки включают в себя  объяснение нового материала, проверочные тесты, формы для рефлексии и другие интерактивные элементы. Траектория может быть заранее составлена или формироваться динамически, подстраиваясь под успехи и ошибки ученика.

Кто использует микрообучение?

Многие компании включают микрокурсы в обязательную программу после трудоустройства. Например, внутри Google действует программа Whisper Courses с пятиминутными обучающими модулями. Она направлена на развитие soft skills и помогают выстроить гармоничные взаимоотношения внутри коллектива. По данным Google, всего за десять недель менеджеры-участники Whisper Courses улучшили свои показатели на 22–40 процентных пунктов по сравнению с контрольной группой.

А минусы будут?

Микрокурсы не подойдут для изучения сложных тем или для продвинутых студентов. Выучить первые 50 слов на немецком языке? Да! Разобраться во влиянии экзистенциализма на поэзию Рильке? Вряд ли.
Микрокурсы также не будут одинаково эффективны для разных возрастов и поколений. Исследования показывают, что работники до 40 лет лучше адаптируются к микрообучению, тогда как старшие сотрудники предпочитают лекции и книги.

О других особенностях микрообучения и о том, почему данным об их эффективности, возможно, не стоит доверять на 100%, узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
1.04.2025, 20:49
t.me/sysblok/1152
69
1.5 k
29.03.2025, 11:33
t.me/sysblok/1149
70
1.5 k
29.03.2025, 11:33
t.me/sysblok/1146
92
72
1.5 k
10 из 10: русские писатели в стиле студии Ghibli

Интернет захватила эстетика мультфильмов Миядзаки. Все из-за новой модели внутри ChatGPT, которая хорошо обрабатывает пользовательские картинки. С её помощью в стиле студии Ghibli уже нарисовали почти все знаменитые фотографии, от Сталина на берегу канала Москва-Волга до окровавленного уха Трампа. Мы тоже присоединились — и стилизовали под Миядзаки портреты 10 русских писателей и поэтов/поэтесс. Сможете угадать всех?

🤖 «Системный Блокъ» @sysblok
29.03.2025, 11:33
t.me/sysblok/1142
69
1.5 k
29.03.2025, 11:33
t.me/sysblok/1148
70
1.6 k
29.03.2025, 11:33
t.me/sysblok/1150
69
1.5 k
29.03.2025, 11:33
t.me/sysblok/1143
70
1.5 k
29.03.2025, 11:33
t.me/sysblok/1145
69
1.6 k
29.03.2025, 11:33
t.me/sysblok/1151
69
1.5 k
29.03.2025, 11:33
t.me/sysblok/1144
69
1.5 k
29.03.2025, 11:33
t.me/sysblok/1147
50
77
2.1 k
Студенческое средневековье: изучаем базу данных средневековых университетов

Что мы знаем о средневековых студентах? Очень многое! Происхождение, статус и другие характеристики европейских студентов тщательно документировались, так что сегодня ученые могут создавать базы данных выпускников и преподавателей прошлого. Об одной из них — Repertorium Academicum Germanicum — рассказываем в нашем новом материале

Кратко: о чем статья?

Коллективные биографии и данные об исторических личностях позволяют составить «обобщённый социальный портрет» разных сообществ. А изучают их с помощью методов просопографии (мы уже рассказывали о них на примере Японии и Древнего Рима). Проект Repertorium Academicum Germanicum (RAG) использует эти методы для исследования средневековых университетов Европы.

Сегодня в базе можно найти данные около 62 тысяч ученых и выпускников университетов, находившихся на территории Священной Римской империи за 1250–1550 гг. (а также сведения об отдельных деятелях XVII столетия). Каждая запись содержит сведения о датах рождения и смерти, географическом и социальном происхождении, времени обучения и получении ученой степени, деятельности после окончания университета, специальности и перемещениях между университетами.  

Интерфейс сайта позволяет составлять графики и карты, чтобы изучить географию происхождения студентов или типичные маршруты их перемещений между университетами. Например, можно выяснить, что немецкие дворяне-протестанты часто приезжали учиться в Марбург, а особенно сильной тенденция стала в середине XVI в., когда у них не было возможности занимать высокие должности из-за своего вероисповедания. 

Другие опции для исследований — изучение маршрутов отдельных личностей или сетей их коммуникаций. Только за последние пять лет на материалах RAG было опубликовано более 20 исследовательских работ (включая статьи, главы в коллективных монографиях и т.д.).

Узнать подробнее о возможностях, которые предлагает эта база данных, сможете благодаря полной версии статьи.

Время чтения: 8 минут

🤖 «Системный Блокъ» @sysblok
25.03.2025, 17:52
t.me/sysblok/1141
32
8
1.5 k
OpenAI против китайского ИИ, новая open-source модель от Google и Mistral Small

Рассказываем, что произошло в мире ИИ за последнее время.

OpenAI против китайского ИИ

В рамках инициативы администрации Трампа AI Action Plan компания OpenAI предложила изменить правила экспорта вычислительных чипов американского производства. AI Action Plan — это инициатива, в которой могут участвовать компании, научные организации и политики, предлагая свои идеи по стратегическому развитию ИИ в США. По итогам обсуждений будет сформирована государственная политика, направленная на «укрепление позиций Америки» в глобальной конкуренции в сфере ИИ.

Вместо полного запрета экспорта чипов в некоторые страны предлагается разрешить поставки при условии, что дата-центры не будут использоваться для работы китайских моделей ИИ. Такое ограничение обусловлено опасениями OpenAI, что китайские разработки вынуждены подчиняться требованиям правительства КНР, что может привести к утечке пользовательских данных при использовании китайских моделей.

Сейчас Китай — главный конкурент США в ИИ-гонке. Китайские компании и лаборатории вносят существенный вклад в развитие ИИ за счет публикации передовых моделей и подробной технической документации в открытый доступ. Многие корпорации используют китайские модели как основу: в частности, последние языковые модели Яндекса и Т-Банка являются дообученными версиями Qwen2.5, разработанной Alibaba Group.

Gemma 3 — обновленная open-source LLM от Google

Компания Google обновила свою open-source языковую модель Gemma.

Третья версия модели доступна в четырех размерах: 1, 4, 12, 27 млрд параметров. Все модели, кроме самой маленькой, поддерживают обработку текста и изображений, версия с 1 млрд параметров умеет работать только с текстом.

По оценкам пользователей LMArena, где каждый желающий может сравнить ответы разных LLM, Gemma 3 c 27 млрд параметров опережает существенно более крупные модели DeepSeek-V3 (671 млрд), Llama 3 405B (405 млрд) и o3-mini.

Модель «из коробки» поддерживает 35 языков, при этом обучающие данные содержали данные на 140 языках. Gemma 3 доступна для коммерческого использования с некоторыми ограничениями. 

Mistral Small 3.1

Французская компания Mistral выпустила обновление своей миниатюрной языковой модели Mistral Small. Размер обновленной LLM составил 24 млрд параметров.

По заявлениям компании, в основных тестах на понимание естественного языка, умение логически рассуждать и писать код новая Mistral Small опережает Gemma 3 с 27 млрд параметров (кроме тестов на математику) и GPT-4o mini.

Из других особенностей выделяется поддержка работы с изображениями, мультиязычность (24 языка), скорость работы, а также возможность использовать модель для дальнейшего обучения режиму «рассуждений».

Модель может быть использована в коммерческих целях без ограничений.

🤖 «Системный Блокъ» @sysblok
24.03.2025, 19:29
t.me/sysblok/1140
41
12
1.5 k
На словах или на деле? Подборка про Льва Толстого в цифровой гуманитаристике!

Лев Толстой — один из самых значимых русских писателей, чье влияние выходит далеко за пределы литературы. Именно его мы упоминали в канале «Системного Блока» чаще всех остальных русских классиков в прошлом году (и едва ли что-то поменяется в этом). В новой подборке собрали для вас наши главные материалы о Толстом.

📚 Цифровые ресурсы 📚

На нашем сайте регулярно выходят статьи, в которых мы рассказываем об онлайн-архивах произведений Толстого. Например, из обзора интернет-ресурсов о писателе можно узнать о семантическом издании «Толстой Digital» и о проекте «Слово Толстого», который открывает читателю доступ к 90-томному собранию сочинений. Подробнее об этом проекте Анастасия Бонч-Осмоловская рассказала в своем интервью.

💻 Цифровые исследования 💻

Цифровые методы позволяют изучить неочевидные аспекты творчества Толстого: например, благодаря корпусной лингвистике мы можем узнать что говорит о персонажах «Войны и мира» их речь.

Векторно-семантические модели помогут изучить стиль писателя и увидеть, что слова «обожать» и «боготворить» в его текстах свидетельствуют о чувствах ложных и зыбких, а «любят» у классика по-настоящему. А изучение других глаголов подскажет, какие действия чаще характеризуют женщин и мужчин в текстах русских писателей (спойлер: в случае Толстого женщины чаще всего улыбаются и плачут, а мужчины — понимают и кричат).

😎 Бонус! Тесты 😎

Для тех, кто хочет проверить знания о Толстом (а иногда и о себе!), мы создали несколько тестов. Например такие:

Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя — узнайте, насколько хорошо вы понимаете редкие слова из его произведений.

С какими героями «Войны и мира» вы говорите на одном языке? — определите, чей стиль речи вам ближе всего. 

Ещё больше наших материалов о Толстом — на его персональной странице на сайте.

😎 «Системный Блокъ» @sysblok
23.03.2025, 15:53
t.me/sysblok/1139
83
11
1.2 k
Digital Humanities Awards 2024: две номинации «Системного Блока»

Привет, это команда «Системного Блока»! Сегодня делимся хорошими новостями, рассказываем про важную премию и обращаемся с небольшой просьбой, но обо всём по порядку!

🎉 Новости

«Системный Блокъ» номинирован на ежегодную премию DH Awards сразу в двух категориях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация) — за проект «Классное чтение» о школьном литературном каноне.

🏆 Премия

DH Awards вручается ежегодно с 2012 года, это профессиональная общественная премия в области Digital Humanities. В этот раз в ней семь номинаций: от большой и, пожалуй, главной, Best DH Resource до Best Use of DH for Fun. Основная цель этой премии — популяризировать цифровые методы в гуманитарных науках и показать, насколько разными могут быть проекты в этой сфере, поскольку награды не зависят ни от языка, ни от географии, ни от темы проекта.

👉👈 Просьба

Победители премии определяются голосованием, так что у нас есть простая и очевидная просьба — если вам нравятся наши спецпроекты, пожалуйста, проголосуйте за них до 4 апреля.

А мы напомним, что на странице точки входа в DH собрали статьи, блоги, глоссарий и рекомендации экспертов в этой области. Ну а в серии материалов «Классное чтение» рассказали о том, как менялся состав зарубежной, региональной и русской литературы в школах от Октябрьской революции до наших дней.

👣 Четыре простых шага 👣

1. Открыть голосование
2. Найти и выбрать Classroom reading (Systemniy Block media) в категории BEST DH DATA VISUALIZATION
3. Найти и выбрать Digital Humanities, или Цифровые методы в гуманитарных науках: точка входа в категории BEST DH RESOURCE
4. Отправить форму!

Спасибо, что читаете и поддерживаете ❤️

🤖 «Системный Блокъ» @sysblok
21.03.2025, 19:29
t.me/sysblok/1138
28
31
1.3 k
Подборка про историю интернета

В новой подборке рассказываем, как писатели в начале XX века предсказали интернет, как в Советском Союзе пытались создать суверенную электронную сеть и почему советские и русские программисты стали цениться во всем мире.

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

1908 год. Упал Тунгусский метеорит, родился лауреат Нобелевской премии Лев Ландау, Сергей Дягилев представил Русские сезоны в Париже. А еще в этом году вышла книга Александра Богданова «Красная звезда». Фантаст описал распределенную информационную систему для сбора статистики на Марсе, которая сильно напоминает интернет.

Интернет на службе коммунизма: как СССР создавал свою электронную сеть

В 60-е гг. XX века в СССР кибернетика из лженауки стала популярной идеей. Читайте в нашем материале про утопичный проект Общегосударственной автоматизированной системы учета и обработки информации (ОГАС) для создания идеального коммунистического будущего.

Утечка в IT: как эмигранты создали бренд русского программиста

В 2007 году президент Intel Russia Стив Чейз заявил: «Если проблема нерешаема, мы передаем ее русским». Это высказывание подчеркнуло высокую репутацию российских программистов на мировом IT-рынке. Рассказываем, как советские и русские программисты стали мировым брендом.

Прокачиваем гуманитария до программиста: инструкция

И бонус! Читайте наш гайд, как из филолога, культуролога, философа — одним словом, гуманитария — стать программистом. Рассказываем, как направить себя, к чему быть готовым и какие ресурсы использовать, если вы увлеклись идеей программирования, но не знаете, с чего начать, и не уверены, сможете ли вы.

🤖 «Системный Блокъ» @sysblok
18.03.2025, 18:23
t.me/sysblok/1137
30
15
1.3 k
Искусственный интеллект в помощь благотворительности

Технологии способны облегчить изматывающий труд благотворительных организаций: найти доноров, помочь с заявкой на грант или спрогнозировать социальные изменения. «Системный Блокъ» рассказывает, в чем цифровые интсрументы полезны в мире добрых дел и почему это сопряжено с рисками.

🤖 Как часто НКО используют ИИ?

Поворот НКО в сторону современных технологий идет не быстро, однако некоторые организации уже активно ими пользуются. Например, в 2024 году для подачи заявки на грант в Фонд Потанина ИИ использовала почти половина опрошенных НКО: искусственный интеллект помог сформулировать цели и задачи проекта, посчитать и описать качественные и количественные показатели, создать шаблон писем для партнеров.

Тем не менее, так было не всегда. Например, как в России, так и за рубежом НКО медленно осваивают технологии, редко используют современные инструменты, такие как чат-боты и искусственный интеллект.

💸 С чем ещё может помочь ИИ?

Платформа Grantable может сгенерировать текст для грантовой заявки, а для большей точности и этичности формулировок можно использовать инструмент AI Grant Writer.

Незаменимым инструментом ИИ может стать и для повышения эффективности фандрайзинга: он может выявить потенциальных крупных доноров на основе анализа данных из внешних и внутренних источников, а ещё — помочь донорам выбрать программу или организацию для пожертвования с учетом прошлых отчислений.

⚠️ Что важно учитывать?

Применение искусственного интеллекта сопряжено с определенными рисками. Например, сгенерированные изображения или видео могут вызвать недоверие к работе НКО у потенциального донора. Кроме того, для обучения качественных и полезных алгоритмов нужно большое количество хороших данных, которых в сфере НКО часто недостаточно.

Более подробно о том, с какими проблемами могут столкнуться НКО, как чат-боты способны облегчить сбор пожертвований и работу сотрудников, и почему использование ИИ в сфере благотворительности не всегда оптимально, читайте в полной версии статьи.

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok
16.03.2025, 15:47
t.me/sysblok/1136
25
25
1.5 k
Технологии в Большом египетском музее: 3D-модели, VR и цифровой двойник

Большой египетский музей (The Grand Egyptian Museum, или GEM) — один из самых многообещающих долгостроев в сфере культурного наследия. Его история началась еще в 2002 году, а первым экспонатом стала 11-метровая гранитная статуя Рамзеса II, размещённая в главном холле музея с помощью виртуальной 3D-копии. Рассказываем, как цифровые инновации вписались в проектирование и строительство музея.

Кратко: что за музей?

GEM — самый большой археологический музей и самый большой музей, посвященный одной цивилизации. Официально он откроется 3 июля 2025-го, но 12 залов постоянной экспозиции уже доступны посетителям.

Цифровые технологии сопровождали музей на протяжении всего строительства, но главным новаторством в архитектурном проекте стало применение технологии digital twin. Это создание полной динамически обновляемой виртуальной модели всего музейного комплекса и его окрестностей. Благодаря ней все люди, занятые в строительстве, оставались в курсе ежедневных изменений, неизбежных для работ подобного (огромного!) размаха. Вместе с реальной постройкой рос и ее двойник.

Другие технологии призваны разнообразить опыт посетителей музея. Например, с официальным открытием в GEM должны стать доступны VR-реконструкция гробницы, 3D-модель Сфинкса и виртуальная лодочная прогулка вдоль Нила времени фараонов.

Подробнее о том, как цифровые технологии помогли сделать проекта музея менее дорогим, но более экологичным и интересным посетителю, узнаете из полной версии статьи.

Время чтения: 11,5 минут

🤖 «Системный Блокъ» @sysblok
15.03.2025, 20:40
t.me/sysblok/1134
44
16
1.4 k
Как 3D-моделирование спасает памятники древнерусской письменности: «Corpus Inscriptionum Rossicarum»

Могут ли новые технологии помочь прочесть нечитаемую древнюю надпись на камне? Как трехмерные модели старинных надгробий, крестов, камней и эпиграфических табличек позволяют не только сохранить эти памятники в цифровой форме, но и добыть новое знание о прошлом? Знакомимся с проектом «Свод русских надписей», проблемами работы эпиграфистов и методами их решения.

Благодарим за помощь в написании материала сотрудника проекта «Свод русских надписей» Анну Зиганшину

Кратко: о чем статья?

Изучением надписей на твердых материалах в России занимаются очень давно: истоки эпиграфики (науки о таких текстах) прослеживаются ещё в в XVI-XVII веках, когда появились первые подробные описания святынь, надгробий и памятников архитектуры. А в XIX веке появились первые эпиграфические своды, куда также вошли письменные источники об изучаемых надписях. Например, черновики текстов памятников и учетные монастырские записи.

Сегодня назревает необходимость в унифицированной публикации и републикации как известных, так и ранее неизвестных памятников, а также тех, которые сохранились в ранних сведениях, но ныне утрачены. Эту задачу призван решить проект «Свод русских надписей».

Участники проекта используют для составления свода современные цифровые технологии: трехмерное моделирование — на этапе документирования объектов — и ГИС и базы данных — на этапе систематизирования учетных данных о надписях. Эти методы значительно расширяют возможности исследователя при подготовке публикации. Но работа «Свода» не кончается на моделировании — необходимо также создать высококачественные рендеры и применить к моделям алгоритмы визуализации текста. Это позволяет прочитать даже те надписи, которые не слишком хорошо сохранились или дошли до современных ученых в поврежденном виде.

Сегодня в базе «Свода» можно найти 2075 документированных плит и фрагментов от 1905 памятников, 1597 моделей памятников, 1424 подготовленные к исследованию надписи и 864 описания надписей.

Подробнее о процессах работы «Свода» и технологических горизонтах проекта можно узнать из полной версии статьи. Там же найдёте примеры древних памятников, которые изучают с помощью условных цветовых схем, рассчитанных математическими алгоритмами, и других цифровых методов.

Время чтения: 16 минут

🤖 «Системный Блокъ» @sysblok
14.03.2025, 14:02
t.me/sysblok/1133
/get_managers
12.03.2025, 16:51
t.me/sysblok/1132
36
23
1.6 k
Огромная GPT, новая модель от Anthropic и OCR от Mistral

Рассказываем, что произошло в мире ИИ за последнее время.

Новая GPT — большая, человечная и дорогая

Компания OpenAI представила новую версию своей языковой модели — GPT-4.5, обновление ранее выпущенной GPT-4o. В отличие от моделей линейки «o», ориентированных на решение сложных задач в области точных наук, в GPT-4.5 сделали упор на естественность ответов и на эмоциональный интеллект — это подтверждается первыми реакциями пользователей. Также модель меньше подвержена галлюцинациям.

По словам компании, версия 4.5 — их самая большая модель на данный момент. Правда, ее размер сказался на скорости генерации ответа — она существенно медленнее GPT-4o. Кроме того, использование GPT-4.5 обходится в десятки раз дороже аналогичных моделей: стоимость обработки миллиона входных токенов составляет $75, а миллиона выходных — $150, что в 30 и 15 раз превышает стоимость GPT-4o соответственно.

Обновление Claude Sonnet

Компания Anthropic, один из главных конкурентов OpenAI, выпустила обновление своей языковой модели — Claude Sonnet 3.7.

Главным нововведением стала поддержка режима рассуждений, при котором модель генерирует длинные цепочки логических выводов, существенно повышающие качество финального ответа. В отличие от конкурентов, Anthropic не стала разрабатывать две отдельные модели — одну для быстрых ответов, другую для ответов с предварительными рассуждениями, а объединила оба режима в одной модели.

В обоих режимах Claude Sonnet 3.7 либо превосходит конкурирующие модели, либо демонстрирует сопоставимые результаты. Особенно заметное преимущество наблюдается в задачах, связанных с программированием.

Цены у Sonnet 3.7 такие же, как и прошлой версии: $3 за миллион входных токенов и $15 за миллион выходных.

Anthropic была основана выходцами из OpenAI. В качестве приоритета компания считает разработку безопасного и интерпретируемого ИИ. По заявлениям гендиректора Anthropic, появление общего искусственного интеллекта можно ожидать уже к 2027 году.

Сервис для OCR от Mistral

Французская компания Mistral представила сервис для распознавания текста на фотографиях и сканах (OCR). Модель способна распознавать не только текстовую информацию, но и таблицы, изображения, графики и формулы.

По качеству распознавания сервис Mistral превосходит аналогичные решения от Google, Microsoft и OpenAI. Особое внимание разработчики уделили мультиязычности: модель нативно поддерживает письменности на основе латиницы, кириллицы и многие азиатские системы письма.

Сервис также позволяет использовать цифровой документ в качестве промта — пользователи могут задавать модели вопросы по содержанию или извлекать из документа необходимую информацию в структурированном виде (например, в формате JSON).

Доступ к сервису предоставляется через API по цене $1 за 1000 страниц. Для клиентов, которым важна конфиденциальность данных, есть возможность развернуть модель на собственных серверах.

🤖 «Системный Блокъ» @sysblok
10.03.2025, 21:00
t.me/sysblok/1131
44
20
1.7 k
Неравенство, женщины в DH и гендерная социолингвистика

Продолжаем праздновать Международный женский день! Собрали для вас подборку полезных и познавательных публикаций, в которых мы напоминаем о сферах, где все еще сохраняется неравенство, изучаем, чем занимаются DH-исследовательницы, и ищем различия между мужской и женской речью.  

👩‍💻 Женщина и программист: исследуем гендерное неравенство в IT-сфере

Несмотря на быстрый рост рынка и востребованность специалистов, проблема гендерного неравенства очень заметна в сфере IT. Мы изучили, какова доля женщин среди профессионалов в области информационных технологий, сколько девушек готовы обучаться компьютерным наукам в России и какие стереотипы ограничивают их на рынке труда.

👨🏻‍🏫 Учителя-мужчины в школе: сколько их и что они преподают

Мы проанализировали открытые данные Минпросвещения и выяснили соотношение мужчин и женщин среди учителей. Насколько силен гендерный дисбаланс в профессии, насколько ситуация различается между российскими регионами и зависит ли доля мужчин и женщин от преподаваемого предмета (спойлер: ОБЖ — самый мужской предмет, Русский язык и литература — самые женские), читайте в нашей дата-истории. 

👩🏻‍🔬 «Игнорируется и не ценится»: вклад женщин в науку через цифры

Если в сфере школьного образования женщин больше, чем мужчин, то в науке дело обстоит по-другому. Здесь женщины иногда оказываются невидимыми. Почитайте нашу статью о работе ученых из Северо-восточного университета в Бостоне и вы узнаете, с какими проблемами сталкиваются исследовательницы, когда речь идет просто об указании авторства. 

👩🏼‍🎓 От первого лица: исследовательницы о своей работе

Если проблемы гендерного неравенства вас расстраивают, почитайте наши интервью с исследовательницами гуманитарных наук. Мы говорили об искусственном интеллекте — с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA, о нейролингвистике — с Ольгой Драгой, директоркой Центра языка и мозга НИУ ВШЭ, о цифровизации аудиоархивов — со Светланой Подрезовой, заведующей Фонограммархивом Пушкинского Дома.

🕵🏽‍♀️ Тест: Знаете ли вы различия между мужской и женской речью

И в завершение — пройдите наш тест, основанный на результатах исследований в области гендерной социолингвистики. Из него вы узнаете, кто — мужчины или женщины — чаще использует абстрактную лексику или слова-паразиты и больше следит за правильностью речи.

🤖 «Системный Блокъ» @sysblok
9.03.2025, 15:06
t.me/sysblok/1130
65
44
1.6 k
Что такое список Сводеша?

С каких слов начать сравнение языков? Почему «компьютер» не подойдет, но подойдет «мясо» (а «шашлык» — уже нет)? Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.

Кратко: что это такое?

Список Сводеша — список самых распространенных, базовых лексем, который используется для оценки родства языков, как правило, внутри одной языковой семьи.
В него входят понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке.

В первом варианте списка Сводеша, опубликованном в 1952 году, было 215 значений. В 1971 году был опубликован финальный список, состоящий из 100 значений.

При этом выбор слов для списка – процесс долгий и не всегда очевидный. Например, из слов, обозначающих названия животных, в финальный список попали «собака», «птица», «рыба» и «вошь». А вот понятия «муж» и «жена» пришлось убрать, поскольку они встречались только в 57% и 51% рассмотренных языков. Сложной оказалась и ситуация со словами, обозначающими родителей: в их основе часто лежит детский лепет (ма-ма, па-па), и во многих языках мира они будут похожи, даже если родство между языками отдаленное.

Отдельный вариант списка Сводеша есть и для жестовых языков. Примечательно, что в нем нет, например, значений для частей тела («рука», «голова») или некоторых местоимений («я», «это»). Дело в том, что в разных жестовых языках эти жесты часто похожи не из-за родства языков, а из-за логики жестовой речи, где значение «я» часто передается указыванием на себя, а значение «голова» — касанием головы.

Подробнее о списке Сводеша, его трансформациях и вариациях узнаете из полной версии текста в нашем глоссарии.

🤖 «Системный Блокъ» @sysblok
8.03.2025, 19:14
t.me/sysblok/1129
43
23
1.7 k
Европейцы чуть не вымерли в последний ледниковый максимум

Что? Да! Об этом рассказали их… зубы. А теперь мы рассказываем вам.

Кратко: как так вышло?

Последний ледниковый период закончился ~11,7 тыс. лет назад, и начался голоценовый период. Предполагалось, что генетический состав европейских охотников-собирателей к тому моменту был относительно однородным на протяжении нескольких тысячелетий в Западной и Восточной Европе.

Оказалось, что разрыв был только в западной популяции, а альтернативные предковые линии не получили подтверждения после анализа данных. Западная популяция практически растворилась в восточной, и только некоторые ее представители смогли добраться до «‎убежищ» в южный землях. Можно сказать, что этот разрыв говорит о том, что западные популяции практически вымерли около 27 тыс. лет назад.

Установить это удалось благодаря разнообразию зубных рядов. Дело в том, что в восточной популяции оно сильно снизилось, а западные вариации практически исчезли. Но почему исследовали именно зубы?

Во-первых, данные о зубных признаках гораздо более многочисленны, чем любые другие типы палеобиологических данных. Во-вторых, эти признаки умеренно наследуются и по материнской, и по отцовской линии и не сильно привязаны к полу ребенка, что делает их удобными для анализа. Наконец, зубы — самая твердая ткань в организме, они имеют больше шансов сохраниться, даже если памятник поврежден и извлечь ДНК невозможно.

Правда, на некоторые загадки в истории европейской популяции этот метод ответов не дает. Подробнее о них и о том, как с этим связано изучение граветтской культуры и украшений в погребальном инвентаре, узнаете из полной версии статьи.

Время чтения: 10,5 минут

🤖 «Системный Блокъ» @sysblok
7.03.2025, 18:35
t.me/sysblok/1128
43
38
1.4 k
Вас слили: как личные данные утекают через онлайн-сервисы и умные устройства 

Скандалы с утечкой личных данных регулярно появляются в новостях, причем в их центре могут оказаться самые разные сайты и сервисы: от онлайн-переводчиков до умных колонок. Разбираемся, как это происходит и вспоминаем несколько показательных случаев.

🚰 Почему происходят утечки?

У утечек данных может быть несколько причин. Например, технические уязвимости: кибератаки случаются, а системы защиты не всегда срабатывают моментально. А иногда пользователи сами фактически соглашаются на потенциальную утечку, автоматически принимая условия сервиса, который оставляет за собой право сохранять и использовать загруженный контент. Ну и о недобросовестных сотрудниках, конечно, не стоит забывать.

📓 Утечки из переводчиков

В 2017 году стало известно об утечках сразу из двух крупных онлайн-переводчиков. Первым был Translate.com — платформа для перевода текстов на более чем 90 языков. Специалисты из норвежской исследовательской организации Tekna обнаружили, что тексты, переведенные с помощью Translate.com, можно найти простым поиском в Google. Многие из этих документов не были предназначены для широкой публики.

Правда, и сам Google оказался не лучше. Журналистка Свеа Эккерт и дата-сайентист Андреас Дьюс ради эксперимента создали поддельный ИИ-стартап и получили бесплатную базу данных якобы для машинного обучения. И благодаря URL-адресам Google Translate, которые хранятся в полном тексте любого запроса, они узнали о тайной операции полиции. Следователь, который работал по делу о киберпреступности, переводил через Google Translate запросы о содействии, направленные в адрес иностранных коллег.

📻 Утечки из умных колонок

В 2019 году британская газета The Guardian сообщила, что подрядчики Apple «регулярно прослушивают записи с конфиденциальной информацией» через голосового помощника Siri. Похожая история произошла и с «Алисой» ещё раньше: в 2017 году на сервисе «Яндекс.Толока» появились задания по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей «Яндекса».

Другие подобные утечки происходили в разное время с сайтами для редактирования текста и проверки на плагиат. О них, а также о том, можно ли защитить свои личные данные, пользуясь подобными сервисами, узнаете из полной версии статьи на сайте (спойлер: увы, общий принцип таков: если вы пользуетесь бесплатным онлайн-сервисом, вы можете быть почти уверены, что ваш текст будет использоваться для «улучшения предоставляемых услуг».)

Время чтения: 13 минут

🤖 «Системный Блокъ» @sysblok
3.03.2025, 18:06
t.me/sysblok/1127
47
83
2.0 k
Как это будет по-русски? Цифровые технологии для изучения русского как иностранного

20 декабря 2024 года Совет Федерации одобрил закон, согласно которому дети мигрантов, не владеющие русским языком, не смогут быть зачислены в школы. Теперь иностранным ученикам нужно не только иметь документы, подтверждающие их легальное пребывание в России, но и сдавать тест на знание русского. Рассказываем, как сделать изучение изучение РКИ (русского как иностранного) интереснее и продуктивнее с помощью цифровых инструментов.

🎤 Буквы и звуки

Изучение любого языка начинается со знакомства с алфавитом и правилами чтения. Познакомиться с русским алфавитом, произношением и написанием букв поможет интерактивная таблица от проекта Russian For Everyone. В таблице к каждой букве добавлен пример со словом с выделенной ударной гласной, а также картинка, позволяющая лучше запомнить слово.

📖 Лексика и чтение

Большое значение в изучении языка имеет расширение словарного запаса, регулярное повторение выученных слов и навык чтения. Для развития этих навыков и предназначена онлайн-платформа Readlang, а сайт RussianGram облегчит понимание и чтение текста, расставив в нем все ударения.

📝 Письмо

Сайт Tobemum предлагает онлайн-генератор, где учителя и родители могут создавать прописи, адаптированные под потребности и уровень подготовки учащегося. Ученикам постарше для проверки орфографии, пунктуации, грамматики и стилистики текстов поможет онлайн-сервис Орфограммка. Программа не только выделяет ошибки, но и дает пояснения к каждой.

🎧 Аудирование

Еще один важный навык — умение воспринимать речь на слух. Сформировать его помогут подкасты от проекта Very Much Russian, слушая которые, можно одновременно учить разные слова, поговорки, шутки и песни.

☑️ Создание заданий и тестов

Одна из самых полезных программ для создания заданий и тестов — Hot Potatoes, позволяющая создавать задания в виде кроссвордов, с заполнением пропусков, тесты на установление соответствий или с выбором альтернативных и коротких ответов и упражнения с перепутанными предложениями. А создать анимированные уроки можно с помощью Animaker — это онлайн-платформа для создания видео с простым интерфейсом и возможностью конструировать своих персонажей.

Ещё больше цифровых инструментов для развития и тренировки разных языковых компетенций, а также для того, чтобы сделать уроки разнообразнее и увлекательнее, найдете в полной версии подборки.

🤖 «Системный Блокъ» @sysblok
1.03.2025, 17:05
t.me/sysblok/1126
48
57
1.5 k
Нагугли мелодию: поисковики для музыкантов

Бывает ли у вас, что в голове засела знакомая мелодия, а название ускользает? Не беда! Рассказываем про поисковики, в которых можно сыграть фрагмент на виртуальной клавиатуре, напеть мелодию или настучать ритм!

🎹 IncipitSearch

IncipitSearch — это метапоисковик, который ищет информацию по нотным текстам, доступным в открытых базах данных. Сейчас он подключен к нескольким крупным музыкальным хранилищам, которые позволяют пользователям найти произведения классической музыки по небольшим фрагментам. Правда, придется наиграть мелодию на виртуальной клавиатуре, но хватит и совсем небольшого отрывка. Например, по девяти нотам ми-фа-соль-соль-соль-до-до-си-си поисковик легко обнаружит арию Орфея из оперы Глюка.

🎤 Musipedia

Если вы не можете наиграть произведение, попробуйте найти его в Musipedia: здесь есть целых пять вариантов поиска, включая возможность напеть или насвистеть мелодию в микрофон и настучать её ритм на клавиатуре. Плюс, спектр композиций здесь значительно шире: от сонат Бетховена до The Rolling Stones. Подробнее о Musipedia мы, кстати, писали здесь.

🤖 «Системный Блокъ» @sysblok
26.02.2025, 20:45
t.me/sysblok/1125
39
31
1.6 k
От периодики до личных документов: как работает контент-анализ исторических источников?

Контент-анализ — один из основных методов работы с данными на основе компьютерных вычислений. Его суть заключается в том, что информация из качественной переводится в количественную, а результаты подсчитываются. Но как возможно трансформировать воспоминания, публикации в газете или анекдоты в цифры? Рассказываем в новом материале,

Кратко: о чем статья?

Применяя метод контент-анализа к историческим документам, исследователи выделяют из массива информации повторяющиеся элементы — это могут быть словосочетания, имена, географические названия. Благодаря такому подходу можно больше узнать, например, о характере исторических личностей и даже о повседневной жизни… в советском трудовом лагере. Если для решения первой задачи можно обратиться к мемуарам и перепискам, то для второй отлично подойдет периодика.

К. А. Зингис изучила газету «Новые Соловки», которая издавалась заключенными во второй половине 1920-х гг. Для начала она выделила смысловые категории, описывающие будни заключенных: «работа», «культура», «санитария», «наука», «любовь», «женщины в лагере», «монастырь» и т. д. После – отобразила перемены в содержании газеты с помощью облака тегов, отражающего наиболее характерные (то есть часто используемые) для каждого периода слова. Это позволило наглядно проследить, как газета из пространства для творческой самореализации превратилась в инструмент идеологического воздействия.

Контент-анализ позволяет также проводить сравнительные исследования. Например, Е. А. Еремеева решила сопоставить образы, характерные для официального и неофициального юмора в советский период. Для этого она изучила советские журналы и анекдоты и выяснила, что через юмор осуществлялся диалог между народом и властью. В официальном журнале «Перец» преобладала категория «советские граждане», а неофициальный юмор чаще всего затрагивал тему «советское руководство».

О других примерах применения контент-анализа для изучении истории и о том, остается ли в таких исследованиях фактор субъективности, узнаете из полной версии статьи.

Время чтения: 7,5 минут

🤖 «Системный Блокъ» @sysblok
25.02.2025, 19:17
t.me/sysblok/1124
29
15
1.5 k
Новая LLM от Маска, генератор видео от Google стал доступен, стартап от бывшей техдиректрисы OpenAI

Рассказываем, что произошло в мире ИИ за последнее время.

Grok 3 — новая LLM от xAI

Лаборатория xAI Илона Маска представила обновленную языковую модель Grok 3. Ключевое улучшение — появление режима «рассуждений». Как и другие современные модели (OpenAI o1/o3, DeepSeek-R1, Gemini 2 Flash Thinking), Grok 3 использует цепочки логических построений для повышения качества ответов. По результатам основных тестов новая версия не уступает ведущим аналогам.

Компания также запустила сервис DeepSearch, формирующий развернутые отчеты по результатам поиска на заданную тему. Подобных автономных исследовательских агентов ранее представили OpenAI (Deep Research) и Perplexity.

Доступ к Grok 3 открыт для подписчиков X Premium и X Premium+. Расширенная подписка включает режим рассуждений и DeepSearch. В дальнейшем эти функции планируется сделать доступными и для базовых подписчиков.

Нейросеть для генерации видео от Google

На платформе fal стала доступна модель Veo 2 от Google DeepMind, позволяющая создавать видеоролики на основе текстовых описаний. Генерация 5-секундного видео обойдется в $2,5, с доплатой $0,5 за каждую дополнительную секунду.

Первая версия Veo была выпущена летом 2024 года в качестве ответа OpenAI Sora, но была доступна лишь ограниченному числу пользователей. В декабре того же года вышла значительно усовершенствованная вторая версия, которая на сегодняшний день превосходит конкурентов по реалистичности создаваемого контента.

Недавно Veo 2 стала доступна при редактировании YouTube Shots — с помощью модели можно по текстовому описанию сгенерировать фон для видео.

Гибкий и полезный ИИ от бывшей техдиректрисы OpenAI

Бывшая техническая директриса OpenAI Мира Мурати анонсировала запуск своего стартапа Thinking Machines.

По ее словам, сегодня существует значительный разрыв между возможностями ИИ-систем и пониманием их внутренних механизмов. Также информация о деталях создания продвинутых ИИ-систем остается только внутри нескольких ведущих компаний, что затрудняет восприятие этих нейросетей обществом и ограничивает эффективность применения. Thinking Machines намерена преодолеть этот барьер, сделав ИИ более прозрачным и доступным для пользователей.

Ключевые направления деятельности компании:

• регулярная публикация технической документации, научных исследований и программного кода,

• разработка набора специализированных ИИ-систем для совместной работы с человеком вместо создания единой автономной универсальной платформы,

• расширение сферы применения ИИ за пределы решения задач по математике и программированию.

В команду Thinking Machines вошли специалисты из ведущих технологических компаний: Джон Шульман (бывший сооснователь и ведущий исследователь OpenAI), экс-руководитель серверной инфраструктуры Meta, бывшая глава отдела мультимодальных ИИ-систем Mistral, а также много других именитых людей.

🤖 «Системный Блокъ» @sysblok
24.02.2025, 18:16
t.me/sysblok/1123
44
33
1.7 k
Нейролингвистика и Альцгеймер: ИИ учится диагностировать болезнь по речи

Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.

Кратко: о чем статья?

Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.

При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.

Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации —  97,18% —  продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.

И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры. 

Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok
23.02.2025, 11:35
t.me/sysblok/1122
21
10
1.4 k
DeepSeek-V3: коротко о главном

Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.

DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.

В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.

Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.

Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.

Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.

🤖 «Системный Блокъ» @sysblok
20.02.2025, 16:52
t.me/sysblok/1120
35
42
1.8 k
Пушкин цифровой: два века работы в одном интерактивном издании

Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.

Кратко: что это за проект?

Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.

На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн. 

Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.

Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.

Время чтения: 10,5 минут

🤖 «Системный Блокъ» @sysblok
19.02.2025, 16:33
t.me/sysblok/1119
24
33
1.3 k
Какие языковые модели (LLM) хорошо пересказывают истории

Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!

Что за эксперимент?

Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.

Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.

Как тестировали модели?

Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.

Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:

- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа

Какие результаты?

GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.

Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.

Время чтения: 11,5 минут

*Компания Meta признана экстремистской и запрещенной на территории РФ.

🤖 «Системный Блокъ» @sysblok
16.02.2025, 12:06
t.me/sysblok/1118
57
24
1.2 k
Их Римская империя: жизнь и связи древних римлян в просопографических базах данных

Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать

Кратко: о чем статья?

Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.

Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.

Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.

Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.

Время чтения: 12 минут.

🤖 «Системный Блокъ» @sysblok
13.02.2025, 16:35
t.me/sysblok/1117
49
69
1.5 k
Как можно улучшить ответы языковых моделей? Гайд по промтам

Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.

👌🏻 Zero-shot prompting

Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).

✌🏻 One/few shot prompting

Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.

🙌🏻 Chain-of-Thought

Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.

Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.

🤖 «Системный Блокъ» @sysblok
12.02.2025, 15:57
t.me/sysblok/1116
45
21
1.5 k
Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google

Рассказываем, что произошло в мире ИИ за последнее время.

Шум вокруг DeepSeek

Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT. 

Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.

Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.

На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.

Автономный исследователь от OpenAI

OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.

Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.

Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.

Google обновила модель Gemini

Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:

1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.

2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).

3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.

Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.

Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.

🤖 «Системный Блокъ» @sysblok

*Meta признана в РФ экстремистской организацией
10.02.2025, 18:14
t.me/sysblok/1115
56
40
1.8 k
«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?

В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.

Что и как исследовали?

Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.

Что с английским корпусом?

Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.

А что с немецким?

Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.

А есть ли различия?

Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.

Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.

Время чтения: 8,5 минут

🤖 «Системный Блокъ» @sysblok
5.02.2025, 20:42
t.me/sysblok/1114
61
28
1.6 k
«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо

Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.

Кратко: о чем не-интервью?

План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Лите­ратуроведение (я не уставал это повторять) есть такая же “наука о жиз­ни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».

Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?

Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «ли­тературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.

Какие примеры статистических и экспериментальных исследований приводит Ярхо?

Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.

При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.

Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.

🤖 «Системный Блокъ» @sysblok
4.02.2025, 17:07
t.me/sysblok/1113
43
15
1.3 k
Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?

Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?

Кратко: о чем статья?

За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.

Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.

К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.

Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.

О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
31.01.2025, 17:57
t.me/sysblok/1112
50
28
1.6 k
Языки программирования vs естественный язык: сходства и отличия

Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞

Что происходит под капотом компьютера?

Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:

BB 11 01 B9 0D 00 B4 0E 8A

Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂

Что же такое языки программирования?

Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.

Какие языки программирования особенно близки к человеческим?

Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).

В чем сходства языков программирования с естественными?

В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.

А в чем отличия?

Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.

Подробнее читайте в блоге Бориса Орехова или смотрите его видео

🤖 «Системный Блокъ» @sysblok
30.01.2025, 21:23
t.me/sysblok/1111
39
30
1.6 k
Коэволюция и кооперация: как биологи и лингвисты изучают эволюцию языка

Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.

От Сократа до санскрита

Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.

Мутации и дрейф (языковых) генов

Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.

Природа неправильных глаголов

Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.

Поиск языковых предков

Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер: лидирует гипотеза о том, что протоиндоевропейский язык мог возникнуть в Закавказье, откуда потом распространился севернее, в степи).

Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.

Время чтения: 13 минут

🤖 «Системный Блокъ» @sysblok
30.01.2025, 14:05
t.me/sysblok/1110
42
27
1.5 k
Zoom после 55: как устроено цифровое образование для старших возрастов

Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.

Кратко: о чем статья?

Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).

После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.

Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.

В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.

Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.

Время чтения: 15 минут

🤖 «Системный Блокъ» @sysblok
28.01.2025, 19:49
t.me/sysblok/1109
49
15
1.8 k
Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1

Рассказываем, что произошло в мире ИИ за последнее время.

Полтриллиона долларов на дата-центры

Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.

Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.

Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.

ИИ-агенты от OpenAI, ByteDance и Perplexity

Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.

В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.

Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.

ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.

Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.

DeepSeek R1 в открытом доступе

Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.

Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.

Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.

🤖 «Системный Блокъ» @sysblok
27.01.2025, 19:04
t.me/sysblok/1108
25
13
1.2 k
Театры и школы в текстах: анализируем именованные сущности

Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка. 

В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.

Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.

🤖 «Системный Блокъ» @sysblok
25.01.2025, 13:10
t.me/sysblok/1106
42
30
1.3 k
Прогулка по древней Москве: виртуальная реконструкция Белого города

Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.

Что такое Белый город?

Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.

Как проходила реконструкция?

Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.

Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.

Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.

Что получилось в итоге?

Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.

Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.

Время чтения: 6,5 минут

🤖 «Системный Блокъ» @sysblok
23.01.2025, 16:05
t.me/sysblok/1105
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa