Недавно вступила в полемику с коллегами по цеху. Разошлись во мнениях - надо ли как-то модерировать то, что код сгенерирован? А именно, что разработчик не сам ручками писал, а взял какой-нибудь code assistant подключил (или спросил у deepseek или qwen) и нагло воспользовался.
Я люблю технологии. В данном случае, code assistant все та же технология. Надо ли за использование как-то "наказывать" разработчиков или контролировать это - честно, большой вопрос.
Будет ли сгенерированный код отличаться от общей кодовой базы? Несомненно, да. Он будет схож, только если его практически полностью переписать.
Будет ли он нести дополнительные уязвимости? Да, если использовать нейронку, простите, в тупую.
Будет ли он содержать избыточные и неоптимальные конструкции? Да, как у джуна)
Нужно ли искать такой код и фиксировать его? Мне кажется, что только ради статистики (ну, чтобы глянуть, как меняется количество такого кода время от времени). Его также как и обычный код, нужно сканировать и проверять на все возможные уязвимости, также нужно оптимизировать и оценивать на код-ревью. Вне зависимости от того, кто его создал - искусственный интеллект или, как иногда бывает, натуральная тупость.
Ну а если вам все-таки нужно его найти - то пока ни один инструмент не справится лучше, чем линтеры. ESLint, gosec и прочие, они прям на ура ищут отличающиеся конструкции. Тот же semgrep и codeQL тоже смогут, кстати.
Но я все равно не считаю, что такой код надо отдельно выискивать и работать с ним отдельно. Это все тот же код, только не написанный ручками, а сгенерированный. Ошибки и уязвимости в нем все те же. Поэтому, главное их найти.
А вы что думаете?