Наука

Применение методов машинного обучения НТЦ ‘Вулкан’ для эффективного восстановления удаленных файлов

Ранее компания столкнулась с проблемой удаления случайно удаленной фотографии с флешки. Веря в то, что восстановление данных не представляет особых сложностей благодаря существующим инструментам, приступили к решению проблемы. Однако попытка использования программы R-Studio, которая предназначена для работы с содержимым носителей информации, привела к неудовлетворительному результату — изображение оказалось поврежденным.

Быстро выяснилось, что драйвер файловой системы разделил фотографию на несколько последовательных блоков (кластеров). Удалось найти только один набор блоков с заголовком формата JPG, а информация о остальных была потеряна. Однако сами блоки на флешке остались, и это давало надежду на успешное восстановление изображения.

Возник вопрос: «Что делать?»

После некоторых исследований было замечено, что если вручную добавить «правильный» блок данных (т.е. блок, который ранее находился на данном смещении), то визуально изображение практически не изменится, за исключением уменьшения серой полосы внизу. Однако, если вместо правильного блока использовать случайно выбранный блок данных, появляется «артефакт» — фрагмент изображения, резко отличающийся от окружающего его контента.

Решение возникло само собой — перебирать свободные блоки 32-гигабайтной флешки и дописывать каждый блок в конец восстановленной фотографии. Затем проводить анализ результатов, выводить изображение на экран и проверять наличие артефактов. Для работы с поврежденными изображениями можно использовать Python-библиотеку Pillow.

Однако возникает новая проблема — невозможно ручками просмотреть миллион изображений. Необходим алгоритм, который бы автоматически определял, насколько подходит произвольный блок данных в качестве следующего блока для восстановленного изображения. Здесь на помощь приходит искусственный интеллект. Чтобы реализовать идею, начали с использования классических методов машинного обучения.

Сначала проводился анализ данных и изучение свойств областей на границе исходного и добавленного фрагментов изображения. 

Для более подробного объяснения, помимо фрагмента неизвестного животного и красного прямоугольника, каждому пикселю области соответствует следующий набор признаков:

  • x, y — координаты пикселя на изображении;
  • r, g, b — тройка чисел, кодирующих цвет пикселя.

Кроме того, на основе координат пикселя и информации об исходном изображении можно ввести следующие признаки:

  • original — принимает значение 1, если пиксель принадлежит исходному изображению, иначе 0;
  • border — принимает значение 1, если пиксель лежит на границе между исходным изображением и добавленным фрагментом, иначе 0.

Теперь пришло время объединить все векторные представления пикселей области и создать датасет (назовем его «pixels»). Используя RGB-координаты пикселей, можно построить кластерную структуру палитры изучаемой области. Для этого применялся алгоритм k-means с числом кластеров, равным 16. Метка кластера, соответствующая цвету пикселя, была использована как дополнительный признак (назовем его «cluster»).

Используя методы машинного обучения, разработанные в НТЦ «Вулкан», смогли решить проблему восстановления удаленных файлов. Опыт показал, что с помощью алгоритмов машинного обучения можно эффективно восстанавливать потерянные данные и воссоздавать поврежденные изображения. Это может быть полезным как для обычных пользователей, так и для компаний, сталкивающихся с потерей важных информационных ресурсов. Продолжение статьи о том, как НТЦ «Вулкан» достигает успешных результатов в этой области, доступно ниже.

Редакция Kadara.Ru

Recent Posts

Августовские перемены: что ждет российских водителей — 6 пунктов правил и ограничений

С первого августа в России вступают в силу важные изменения, касающиеся правил для водителей. В…

46 минут ago

В Китае Shiyan Guoke Honghu Technology испытала ИИ-трактор Honghu T70

Shiyan Guoke Honghu Technology из Китая продемонстрировала свой новый высокотехнологичный трактор Honghu T70, который работает…

2 часа ago

В августе в Перми стартует международный чемпионат «Битва роботов»

С 23 августа в Перми начнется международный чемпионат «Битва роботов», в котором примут участие 28…

3 часа ago

В Ставрополе хотят зарегистрировать бренд алкоголя «Лабубу»

Ставропольская компания «Лоза Ставрополья» подала заявку в Роспатент на регистрацию нового алкогольного бренда «Лабубу», сообщает…

4 часа ago

Миллиардер Рыбаков выкупил альбом Гуфа «Город дорог» за 95 млн руб для удаления из сети

Игорь Рыбаков, известный миллиардер из Челябинска и совладелец корпорации «Технониколь», совершил необычную покупку: он приобрёл…

6 часов ago

MacRumors: обновление iPhone и Mac исправляет опасную уязвимость в Chrome

Компания Apple выпустила новые версии программного обеспечения для своих устройств, включая Mac и iPhone, чтобы…

8 часов ago