Готовое к использованию компьютерное зрение с открытым исходным кодом, чтобы определить, изображена ли на картинке собака/машина/и т. д.

У меня есть миллион фотографий, и мне нужно классифицировать их по ключевым словам.

Пример: фотография собаки, управляющей автомобилем рядом с Эйфелевой башней, получит ключевые слова «собака», «автомобиль» и «эйфелева башня».

Требования:

  • Программирование не требуется. Просто установите пакет, и его можно использовать напрямую через командную строку или HTTP API.
  • Не нужно его «обучать», программа уже включает результаты обучения.
  • Работает на Linux, Mac или Windows.
  • 100% открытый исходный код (данные для обучения и обучающее программное обеспечение не обязательно должны быть с открытым исходным кодом, но конечное программное обеспечение, включая данные, полученные в результате обучения, должно быть с открытым исходным кодом)
  • Объектами для распознавания являются объекты, часто видимые людьми ( собака ), виды ландшафта ( лес ), известные места ( Эйфелева башня ). Чем больше, тем лучше, бонус за включение других типов понятий, таких как известные люди ( Нельсон Мандела ).
  • Супер-бонус, если ключевые слова являются объектами Викиданных ( собака → https://www.wikidata.org/wiki/Q144 )
  • Бонус за предоставление вероятности по каждому ключевому слову (вероятность 97%, что на этой картинке изображена собака)

Ответы (1)

На сайте Tensorflow Github есть предварительно обученные модели , часть из которых основана на коллекциях изображений. Думаю, покопавшись, вы найдете больше.

Вот один из них, доступный в виде модели NodeJS: MobileNet — классифицируйте изображения с помощью меток из базы данных ImageNet .

`npm i @tensorflow-models/mobilenet`

Хотя лично я им не пользовался. Некоторое время назад на Meetup я видел выступление кого-то другого, использующего такие предварительно обученные модели с Python.