URBAN MASH • @urban

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

URBAN MASH

https://t.me/urban_mash

Channel age

Created

Language

Russian

ER (week)

ERR (week)

Про гисы, городские данные и градостроительство Автор: Мария Эрцеговац Для связи @merc_telega

Messages Statistics

Top categories

Main categories of messages will appear here.

Top mentions

The most frequent mentions of people, organizations and places appear here.

URBAN MASH

1 639 subscribers

415

Global Leadership & Business Certification Cambridge 2025

Меня выбрали в качестве делегата в бизнес-симпозиум Кембриджского университета. Ура 🥰

@urban_mash

05/05/2025, 18:07

t.me/urban_mash/246 Permalink

URBAN MASH

1 639 subscribers

794

kNN для геоданных
В одном из последних постов упомянула, что классический knn не оч хорош для геоданных, полетели вопросы в лс) Поэтому решила сделать отдельный пост!

📍ПРОБЛЕМЫ

1. Масштабирование признаков
Геоданные обычно представлены в виде координат (широта, долгота), которые могут иметь разный масштаб (например, градусы vs. метры). Если не нормализовать данные, расстояние между точками будет искажаться.
Пример:
- В градусах: lat ∈ [-90, 90], lon ∈ [-180, 180] → долгота влияет сильнее.
- В метрах: 1° широты ≈ 111 км, 1° долготы ≈ 111 км × cos(lat) → зависимость от широты.

2. Расстояние на сфере (Земля не плоская)
Евклидово расстояние (sqrt(Δlat² + Δlon²)) плохо работает на больших дистанциях, так как искажает реальные расстояния на сфере.
Пример:
- Вблизи экватора 1° ≈ 111 км, но ближе к полюсам 1° долготы → 0 км.

3. Неравномерная плотность данных
В городах точек может быть много, а в сельской местности — мало. Это приводит к:
- Смещению предсказаний (kNN будет давать больше веса густонаселённым регионам).
- Проблемам с выбором k (в плотных районах нужно маленькое k, в разреженных — большое).

4. Вычислительная сложность
kNN требует хранения всех данных и вычисления расстояний для каждого нового объекта → O(N) на запрос. Для больших геодатасетов (миллионы точек) это неэффективно.

5. Категориальные признаки
Если в данных есть категории (например, тип местности), их сложно учесть в стандартной метрике расстояния.

📍КАК УЛУЧШИТЬ kNN ДЛЯ ГЕОДАННЫХ?

1. Использовать метрики, которые учитывают кривизну Земли.
- самая популярная Haversine distance
from sklearn.metrics.pairwise import haversine_distances
distances = haversine_distances([[lat1, lon1], [lat2, lon2]])

- Vincenty distance более точный, но более медленный

2. Нормализация и масштабирование
- Если используете евклидово расстояние, приведите координаты к метрам (например, через pyproj).
- Можно применить StandardScaler или MinMaxScaler.
Спойлер: в конце будет про UTM

3. Учет пространственной автокорреляции
- Взвешенный kNN – давать больше веса ближайшим соседям (например, weight = 1 / distance).
- KD-деревья или Ball Trees – ускоряют поиск соседей в пространственных данных (sklearn.neighbors.BallTree)
*** кстати соседей в своей работе в Яндексе я ищу через роутеры по улично-дорожной сети, т.к. в моих задачах мне важна транспортная доступность

4. Оптимизация выбора k
- Использовать кросс-валидацию с учетом пространственного разделения (например, sklearn.model_selection.KFold с учетом координат).
- Методы вроде LOOCV (Leave-One-Out Cross-Validation) для маленьких датасетов.

📍А КАК ЖЕ UTM???
UTM действительно помогают работать с геоданными в локальных координатах, но у них есть свои нюансы. За этими проекции следуюдет признать:
✅ Евклидово расстояние работает лучше – в метрах, а не в градусах.
✅ Меньше искажений на небольших территориях (город, область).
✅ Быстрые вычисления – не нужно считать Haversine.

Но есть ограничения...

1. Границы зон
Точки из разных зон UTM нельзя сравнивать напрямую (easting повторяется), нужно разбивать данные по зонам или использовать Haversine.
2. Большие расстояния
UTM искажает расстояния за пределами зоны (~1000 км), для континентальных данных лучше подходит Haversine/Vincenty.
3. Высота не учитывается
UTM работает только с 2D-координатами. Если нужен рельеф, нужно добавлять altitude в метрику расстояния.
4. Неравномерная плотность
В городах точек больше, чем в сельской местности, тут нужен адаптивный k или взвешенный kNN.

P.S. как быстро определить зону UTM
import math
utm_zone = math.floor((lon+180)/6)+1
UTM хорош для локальных данных в одной зоне, но для сложных случаев имхо лучше использовать другие подходы. Про них напишу как-нибудь потом)

@urban_mash

04/30/2025, 20:11

t.me/urban_mash/244 Permalink

URBAN MASH

1 639 subscribers

1.3 k

Введение бесплатного проезда в Белграде

В декабре 2021 года мэр Белграда Александр Шапич из Сербской прогрессивной партии SNS, объявил, что с 1 января 2022 года общественный транспорт в городе станет бесплатным для всех жителей. В действительности бесплатный городской транспорт (трамваи, автобусы, троллейбусы) вступил в силу с 2025 года. Официальная причина - поддержка граждан в условиях роста цен. Инфляция в Сербии в 2022 году достигала 15%.

ПОЧЕМУ ЭТО НЕРАЗУМНЫЙ ШАГ?

1. Финансовая нагрузка на бюджет
До реформы городской транспортный оператор GSP ежегодно получал 10–12 млрд динаров (≈85–100 млн евро) от продажи билетов. После введения бесплатного проезда, этот доход исчез, и убытки теперь покрываются из бюджета Белграда. В 2023 году на субсидии транспорта выделили более 20 млрд динаров (≈170 млн евро) — почти вдвое больше, чем раньше. Средства берутся из городского бюджета, который и так имеет долги (в 2023 году — около 1,5 млрд евро). Оппозиция, например, партия «Двери српске», утверждает, что это приводит к сокращению других важных программ — ремонта дорог, финансирования школ и больниц.

2. Ухудшение качества транспорта
Автопарк устарел: Шапич обещал закупить 500 новых автобусов, но к 2024 году поставлено лишь около 200, в основном китайские Yutong. Водители и профсоюзы жалуются на нехватку персонала и переработки, что приводит к сбоям в расписании (это мы еще не берем перекрытые дороги из-за протестов). А бюджет мощнее не становится, персонула надо платить деньги, подвижной состав надо закупать или ремонтировать текущий. И так были большие проблемы с наземным общественным транспортом, проблема никуда не делась.

3. Эластичность спроса на ОТ не зависит от цены
Если Шапич считает, что это хоть как-то повлияет на пробки, вынуждена огорчить. Местные жители и так не сильно желали платить за транспорт, можно сравнить эмпирически пассажиропотоки и кол-во проданных билетов на любом маршруте в час-пик. У Белграда не было проблем в недозагруженности, наоборот. Автобусы переполнены. На спрос цена не повлияла (что мб к счастью) в положительную сторону, т.к. условная половина и так не платила. Но зато город потерял половину поступлений от людей, которые платили. А автомобилисты в любой стране автомобилисты. Пока ОТ не удовлетворяет трем критериям: скорость, комфорт и предсказуемость, автомобилисты на него не пересядут. Но справедливости ради им и некуда пересаживаться, зайдите на любой маршрут в час-пик.

Мое мнение
Если мы заботимся о горожанах, мол инфляция высокая, логичнее ввести льготные тарифы для социально уязвимых групп (как идея посмотреть еще на причины инфляции, но это не точно). Если мы заботимся о пробках - это можно решить негативными стимулами по индивидуальному авто и позитивными по общественному (и цена билета автобуса не стимул). Реформа Шапича — классический пример популизма, отличающийся красивым обещанием перед выборами. Пока что реформа выглядит как политический пиар за счёт городского бюджета.

P.S. фотография - пример активного гражданского общества, которые борются за отмененные маршруты. Подробнее о кейсе можно почитать тут: Vratimo trolu 28.
P.P.S. как насчет возобновления строительства метро?) вот что действительно подняло бы рейтинги любого градоначальника 😁

@urban_mash

04/25/2025, 23:45

t.me/urban_mash/242 Permalink

URBAN MASH

1 639 subscribers

1.1 k

Зачем геоаналитикам ML и зачем ML-щикам Geo?

Часто слышу от "трушных" программистов, что геоаналитика — это просто добавить столбцы latitude и longitude в датасет и прогнать через sklearn. Но на практике всё чуть сложнее.

Почему геоаналитику недостаточно классического ML?
Когда я делала любую геомодель, которая по пространственным признакам предсказывает таргет, то я сталкивалась с несколькими проблемами:
- Пространственные данные автокоррелированы (значение в точке зависит от соседей) → обычные ML-модели дают смещённые предсказания.
- Координаты — это не просто два признака, а пространственная структура → нужны специальные методы (геостатистика, пространственные графы).
- В геоданных много шума (GPS-прыжки, ошибки картографирования) → без предобработки модели учатся на артефактах.

Почему ML-специалистам нужно понимание гео?
Когда мы с командой прогнозировали заказы в ПВЗ на хакатоне, мы увидели, что:
- Рядом с метро спрос выше в 1.5–3 раза → но если просто добавить distance_to_subway, модель не учтёт нелинейность (например, пешеходные маршруты через парки).
- Традиционные метрики (RMSE) не отражают географическую ошибку (промах на 500 м в центре Москвы ≠ 500 м в промзоне).
- Без понимания пространственных процессов (например, сезонной миграции) модель выдаёт "среднюю температуру по больнице".

Курсы, которые реально прокачали мои навыки
1. Working with Geospatial Data in Python (Datacamp) – лучший старт для работы с geopandas и shapely.
2. Spatial Data Science and Applications (Coursera) – более общий курс, где есть QGIS, PostGIS, R и инструменты Hadoop.
3. Курс Инессы Трегубовой – разбор реальных практических кейсов. Это курс, где я была на 1 потоке и который стал для меня вдохновением пойти работать геоаналитиком в Я.Лавку, т.к. на тот момент Инесса там работала.

P.S. Если хотите глубже разобрать какой-то кейс – пишите, расскажу про подводные камни (например, почему kNN для геоданных — плохая идея).

@urban_mash

04/22/2025, 18:43

t.me/urban_mash/241 Permalink

URBAN MASH

1 639 subscribers

1.4 k

Трудоустройство в большие и маленькие фирмы

Часто слышу от друзей и знакомых рассуждения о найме. Два главных тейка:
1. Яндекс оборзели, платят меньше рынка.
2. Урбан бюро оборзели, мало платят.

С одним из тейков я более, чем согласна, с другим нет) Любое трудоустройство - это заключение договора, это сделка между работником и работодателем. Работники, коих большинство, часто находятся в позиции прошения, особенно на российском рынке. Но давайте представим, что работодатели тоже за нас конкурируют, точно так же, как мы конкурируем за место в Амазон. Чем круче сотрудник, тем выше за него конкуренция. Когда говорят "дефицит кадров", это не значит, что нет рабочей силы. Рабочая сила есть, но не каждый человек, находящийся в поиске работы - нужный крутой кадр.

И когда на рынок труда выходит тот самый кадр, предлагая свои профессиональные услуги, компании начинают за него конкурировать. Яндекс (подставьте название любой корпорации), очевидно, предложить может нефинансовых плюшек (т.е. помимо зарплаты) гораздо больше, чем любая маленькая компания. Давайте перечислим:
1. ДМС
2. Классные френдли офисы со спортзалами, едой, библиотеками
3. Скидочные системы с партнерами
4. Мероприятия и разного рода развлечения
5. Репутация (такая строчка в резюме - маркер качества)
6. Профессиональный карьерный рост: много супер умных коллег, у которых ты учишься
7. Понятный карьерный рост: есть четкие регламенты и сроки грейдапов
8. Выстроенные стабильные процессы
... и т.д.

Именно поэтому в Яндекс все еще непросто попасть, несмотря на относительно низкие зарплаты. Однако когда вы маленькая компания, маленькое бюро или стартап, единственное преимущество, которое вы можете дать работнику - это деньги. И когда маленькие компании не предлагают те самые деньги (а зарплаты должны быть не просто на 5% выше рынка, а прям значительно выше), я задаюсь вопросом: а как вы вообще собираетесь расти компанию? Без кадров, без классной экспертизы сотрудников вы просто не выживите на рынке, молчу про увеличение прибыли.

Есть много исследований, которые подтверждают, что маленькие компании часто вынуждены предлагать более высокую заработную плату, чтобы конкурировать с крупными корпорациями. Собрала и прикрепила все ссылочки.

1. Компенсация нематериальных выгод деньгами
- Исследование Turban & Cable (2003) показывает, что кандидаты готовы соглашаться на меньшую зарплату в крупных компаниях из-за их репутации и дополнительных льгот.
- Теория трансакционных издержек (Williamson, 1985).

2. "Премия за риск" в малом бизнесе
Предприниматели и сотрудники малых фирм получают в среднем больше (почасовая оплата), чем в крупных компаниях – это компенсация за нестабильность и отсутствие гарантий (Hamilton, 2000).

3. Эмпирические данные о зарплатах
- В работе Oi & Idson (1999) собрана инфа о зарплатах, вывод: крупные фирмы платят меньше за аналогичные позиции, но компенсируют это стабильностью и бонусами.
- А тут Brown & Medoff (1989) показано, что размер компании отрицательно коррелирует с зарплатой (чем больше компания, тем ниже ставки при прочих равных).

4. Современные исследования (стартапы)
- Lehdonvirta (2018) отмечает, что фрилансеры и сотрудники стартапов требуют надбавку за отсутствие соцпакета.

Из чего у меня 2 вывода:
1) Если вы маленький стартап, не готовый платить сотрудникам, если нет готовности брать кредиты на зарплаты, если не получается "продать" идею или просто найти внешних инвесторов, мб ну нафиг эту деятельность?)
2) Если вы кадр, но вам не предлагают работу крупные корпорации или вообще есть сложности с поиском работы, то скорее всего вы не кадр) Лучшее, что можно сделать, это уйти в минус по деньгам, но проапгрейдив свои скилы. Никто не отменил образовательные кредиты, помощь фондов, родительские деньги (если имеются возможности) и т.д.

P.S. совершенно иначе стоит вопрос, когда крупные компании конкурируют за кадры. Условные Сбер, WB, Ozon, Яндекс и т.д.

@urban_mash

04/18/2025, 17:35

t.me/urban_mash/239 Permalink

URBAN MASH

1 639 subscribers

1.5 k

LSCP vs MCLP vs P-median tg.pdf

Локационные задачи: где размещать объекты с умом?

Выбор мест для магазинов, складов, больниц или станций — это локационные проблемы. Их цель — найти оптимальные точки, чтобы минимизировать затраты или максимизировать охват. Три ключевые модели:

1. LSCP — когда нужно гарантированно покрыть всех клиентов (например, пожарные станции в городе).
2. MCLP — когда ресурсов мало, а охват нужно максимизировать (например, аптеки в районе).
3. P-median — когда важно сократить среднее расстояние (например, логистические хабы для доставки).

Где применить?
- Ритейл — где открыть магазин?
- Логистика — где разместить склады?
- Госуслуги — как распределить больницы?
- Телеком — куда ставить вышки (тут также помогают диаграммы Вороного, о которых писала выше)?

Все эти модели уже реализованы в библиотеке spopt из PySAL — просто подставьте свои данные. Я поделюсь нашей черновой теоретической презентацией по принципу работы этих "моделек".

@urban_mash

04/17/2025, 18:15

t.me/urban_mash/238 Permalink

Search results are limited to 100 messages.

Some features are available to premium users only.

You need to buy subscription to use them.

Filter

Reset filters

Publication date

Search in file name

Message type

Repost

Original

Deleted message

Message is not deleted