Достижения это хорошо, но это демонстрация потенциальных возможностей. Давайте посмотрим, что добились нейронные сети в индустрии на основании отчёт об искусственном интеллекте Artificial Intelligence Index Report 2021.
Посмотрим на качественный прогресс в IMAGENET Calange. Это соревнование по распознаванию картинок нейронными сетями. Создана очень большая база изображений (датасет). В этот датасет входят разные изображения по 200 категориям. В категории TOP-1 accuracy нейронная сеть должна с одной попытки угадать категорию, например, это самолёт или туфли. В категории TOP-5 accuracy нейронная сеть должна с пятью попыток угадать категорию. Как мы увидим, прогресс постепенно выходит на плато:
год TOP-1 TOP-5 2013 65% 85% 2014 74% 87% 2015 79% 92% 2016 83% 95% 2017 84% 97% 2018 85% 97.5% 2019 86% 97.6% 2020 86% 97.7% 2021 86.5% 97.9%
Давайте посмотрим другие показатели. Так до 2017 года дополнительные данные не давали преимущества, а лишь ухудшали результат. В 2017 году результаты сравнялись, а после с дополнительными данными результаты линейно обгоняют простого обучения на датасете. Сейчас TOP-1 = 90.2%, TOP-5 = 98.8. Возможно, именно в них и будет прогресс.
Также скорость обучения выросла: 2018 6.210 минуты, 2019 1.39 минуты, 2020 47 секунд до 1 минуты. Время всё же снижается кратно, хоть и по убывающей, а ресурсы увеличиваются экспоненциально, но и сложность нейронных сетей возрастает, чтобы показывать результаты более высокие. Но, хоть и ресурсов требуется гораздо больше, но в реальности нас интересует стоимость, а она постоянно снижается: 2018 500$, 2019 10$, 2020 8$, хоть и затухающе.
Может быть ситуация связан с утиханием интереса среди учёных к искусственному интеллекту? Но, нет, доля публикаций в AI со времени прорыва в распознавании изображений относительно всех публикаций экспоненциально растёт:
год % 2011 1.4 2012 1.2 2013 1.2 2014 1.3 2015 1.5 2016 1.8 2017 2.0 2018 2.5 2019 3.8
Общее число публикаций тоже растёт, причём экспоненциально:
2011 0.1 тысяч 2012 0.2 тысяч 2013 0.3 тысяч 2014 0.5 тысяч 2015 1.1 тысяч 2016 1.9 тысяч 2017 3.0 тысяч 2018 3.5 тысяч 2019 5.8 тысяч 2020 6.5 тысяч
Рассмотрим США, так как она занимает лидирующее место по публикациям (36,3%) в AI от других стран в совокупи, что не удивительно, ведь доля PHD полученных в США от всех стран в совокупи в AI составляет 81,8%. PHD по компьютерным наукам специализация на ML/AI лидирует с долей 25% от всех направлений по компьютерным наукам, отрываясь от Теории алгоритмов с долей 8%. При этом скорость роста популярности за год у ML/AI самая высокая: 9%. А подробнее про рост с 2019 по 2020 (остальные показывают снижение популярности):
Artificial Intelligence/Machine Learning 9% Robotics/Vision 2.6% Human-Computer Interaction 2% Security/Information Assurance 2% Computing Education 1.4% Databases/Information Retrieval < 1% High Performance Computing < 1% Theory and Algorithms < 1% Information Science < 1% Social Computing/Social Informatics/CSCW < 1%
При этом с каждым годом, получившие степень PhD (Doctor of Philosophy) в США, всё больше находят работу в частных компаниях, что подтверждает, что компании оценивают потенциал AI, который они смогут применить.:
год % 2010 44 2011 41 2012 50 2013 50 2014 58 2015 58 2016 60 2017 58 2018 61 2019 65
При этом важно заметить, что растут публикации не только издаваемые государственными учреждениями, такими как институтами и государством при написании докторских работ, но и корпоративные, то есть те, которые предполагается использовать в реальном бизнесе и тенденция показывает экспоненциальный рост:
год Китай США 2010 0,2 тысяч 0,7 тысяч 2011 0,2 тысяч 0,7 тысяч 2012 0,2 тысяч 0,8 тысяч 2013 0,3 тысяч 0,9 тысяч 2014 0,3 тысяч 1,0 тысяч 2015 0,4 тысяч 1,3 тысяч 2016 0,5 тысяч 1,5 тысяч 2017 0,7 тысяч 2,0 тысяч 2018 1,1 тысяч 2,7 тысяч 2019 1,6 тысяч 3,6 тысяч
Раз есть публикации, значит есть и исследования, а наиболее полезные обычно (зависит от страны) патентуют. При этом рост экспоненциальный числа патентов в IA и доля IA патентов постепенно растёт от общего числа патентов:
год тысяч патентов 2009 39 2010 42 2011 49 2012 56 2013 60 2014 60 2015 60 2016 57 2017 61 2018 78 2019 102
Ориентируясь на сегментацию AI публикаций на сайте arXiv можно косвенно провести с общей ситуацией по росту направлений в AI. В приведённой ниже статистике они все показывают рост и при том линейный. Наибольший рост показали Computer Vision (31% от общего) и нейронные сети (32% от общего):
область AI публикаций Нейронный Machine Learning 11.098 Computer Vision 11.001 Языки 5.573 Robotics 2.571 Общий AI 1.923 Статистический ML 1.818
Также косвенно можно посмотреть по распределению конференций:
International Conference on Intelligent Robots and Systems (IROS) 25,719 Conference and Workshop on Neural Information Processing Systems (NIPS) 22,011 International Conference on Machine Learning (ICML) 10,800 The Conference on Computer Vision and Pattern Recognition (CVPR) 7,500 Association for the Advancement of Artificial Intelligence (AAAI) 4,884 International Joint Conference on Artificial Intelligence (IJCAI) 3,015
International Conference on Intelligent Robots and Systems (IROS) 25,719 Conference and Workshop on Neural Information Processing Systems (NIPS) 22,011 International Conference on Machine Learning (ICML) 10,800 The Conference on Computer Vision and Pattern Recognition (CVPR) 7,500 Association for the Advancement of Artificial Intelligence (AAAI) 4,884 International Joint Conference on Artificial Intelligence (IJCAI) 3,015
Безусловно, достигать больших результатов всё сложнее, но и важно, что распознавание мелких картинок довольно старая задача, которая уже не столь актуальна. Рассмотрим другие перспективные области, в которых устраиваются соревнования:
* распознавание речи, используемый для субтитров видео;
* генерация изображений лиц людей: Fréchet Inception Distance (DID) c 01/2018 по 07/2020 уменьшился с 40 до 25.4;
* распознавание фейковых изображений, которые могут использоваться при фильтрации в социальных сетях и новостях: Deepfake Detection Challenge, Логистическая функция ошибки с 0.7 до 0.19 за 4 месяца;
* распознавание расположения ключевых точек и суставов на изображении человека, которые могут использоваться в кинематографе и магазинах без касс, таких как Amazon.Go: Keypoint Detection Challenge в Common Objects in Context (COCO) увеличение с 62% до 80.8% за 4 года;
* альтернативная задача по распознаванию контуров человека DensePose Challenge в Common Objects in Context (COCO) с 55% до 72% за полтора года;
* сегментация изображения по областям (выделение объектов: дорога, человек, здание, пешеходная зона), которое может применяться для автопилотов, для создания коллажей, смена фона в кинематографе, дополненной реальности: PIXEL-LEVEL SEMANTIC LABELING TASK в CITYSCAPES CHALLENGE с 63% до 85% за 5 лет;
* распознавание типа действия на видео, которое може использоваться полицией или службами безопасности: Temporal Action Localization Task в датасете ActivityNet с вероятностью угадывания с 18% до 42.8% за 4 года;
* распознавание объектов на фото, которое может использоваться в автопилотах: MEAN AVERAGE PRECISION в датасете You Only Look Once (YOLO);
* распознавание людей по лицам, которые используется авторизации по лицу (банки, магазины, метро): Face Recognition Vendor Test (FRVT) в National Institute of Standards and Technology (NIST) с ошибкой до 0.22% за 3 года;
* понимание текста в датасете Stanford Question Answering Dataset (SQuAD) с 45% до 90.3% за полтора года (лучше человека);
* опрос по картинке на соревновании Visual Question Answering (VQA) Challenge в задаче Visual Commonsense Reasoning (VCR) Task с 68% до 95.4% для версии SQuAD v1.1 (лучше человека);
* рассуждения по тексту или картинке на соревновании Visual Question Answering (VQA) Challenge за 4.5 года с точностью с 55% до 76.4%;
* распознавание речи по датасету LibriSpeech в задаче Transcribe Speech количество ошибок уменьшилось за четыре года без шумов 5.3%..1.4%, а с шумами 13.3%..2.6%;
* распознавание какому человеку принадлежит реч: 0,6% ошибок;
* предсказание структуры белка с 2016 года обогнала физически модели с точностью 40% и на 2020 год достигли точности 84%;
* решение проблем и доказательство теорем: с 2017 года имеет линейный тренд без прорывов;
Целесообразность применения машинного обучения используется там, где много данных, на которых их можно обучить. А это зачастую или корпорации, или иногда применение самих обученных нейронных сетей осуществляется как краевые вычисления (IoT).
Сейчас с Microsoft в непосредственной области ML и AI, и интеграции этих наработок в продукты работают более 7000 специалистов. На примере продуктов компании Microsoft посмотрим на внедрение ИИ в больших компаниях:
* 1995 Помощник MS BOB;
* 1996 Ассистент MS Office Clippy и корректор грамматики;
* 2002 Распознавание рукописного ввода Windows XP;
* 2011 Классификатор снимков в Windows Live Photo Gallery;
* 2013 Помощник Contana;
* 2014 Синхронный перевод в Skype;
* 2015 Аутентификация с помощью видеокамеры Windows Hello;
* 2016 Чат-боты и распознавание образов статистически лучше человека;
* 2017 Распознавание речи статистически лучше человека;
* 2018 Выполнение тестов статистически лучше человека.
Сама компания развивает AI в областях: консалтинг, образование, программные сервисы (SaaS), фреймворки, инструменты для разработчиков, программная (облака) и аппаратная (процессоры) инфраструктура.
Если же брать в общем индустрии, то применяться они могут для нахождения точек продаж (воронки), классификации звонков (предварительный разговор), выявления фрода, предиктивная аналитика (поломок).
Глубокое обучение, начавшееся как тренд в 2012 году, сейчас переходит в плато и начинает находить применение. Для применения ищутся способы определения, на основе каких признаков было принято конкретное решение, например, при отказе выдать кредит законодательство обязывает предоставлять клиенту причину отказа. Одновременно в компаниях или внедряются уже наработки в продукты, или отлаживаются для большего уровня интеграции.