Новый эффективный метод анализа качества данных от IBM Research.
Всемирно извесная лаборатория IBM Research, сообщила о изобретение революционного метода, основанного на математическом алгоритме, который уменьшает на два порядка вычислительную сложность, расходы и потребление электроэнергии при анализе качества больших объемов данных. Новый метод поможет другим иследовательским центрам быстрее извлекать и использовать данные для создания более точных прогнозирующих моделей.
В этом эксперименте был зарезервирован супер компьютер, который занимает четвертое место в рейтинге самых мощных вычислительных систем в мире – Blue Gene/P, который находиться в исследовательском центре города Юлих в Германии. Для проверки нового изобретенного метода было использовано девять терабайт данных или 9000000000000 байт. Данный компьютер решил эту задачу менее чем за 20 минут, причем без ущерба качеству. Если сравнить предыдущий результат то этот компьютер, обрабатывая такое огромное колличество информации, затрачивал более одного дня для решения тойже задачи.
Новое метод обработки данных ученых IBM был представлен на всемирной конференции Общества промышленной и прикладной математики (Society for Industrial and Applied Mathematics, SIAM), проходящей в Сиэтле, штат Вашингтон.
Одним из самых сложных и требующих огромного объема вычислений факторов в аналитике и математической статистике считается измерение качества данных которое показывает, насколько надежными (или достоверными) являются данные полученые от источника информации, такие данные используются при анализе и, также, генерируются аналитической моделью. Во многих профессиональных областях, от организации дорожного движения и ведения финансовых операций до управления водными ресурсами, новый метод, разработанный учеными IBM, может проложить путь к созданию более мощных, комплексных и точных моделей с расширенными возможностями прогнозирования.
Ученые IBM продолжают изучения в этой области и активно включаются в проекты клиентов, чтобы помочь в расширении способности аналитики прогнозировать результаты.
Новый метод, продемонстрированный учеными IBM, уменьшает вычислительную сложность и обладает очень хорошими характеристиками масштабируемости, которые позволяет использовать его «на полную мощность» суперкомпьютера JuGene в научно-исследовательском центре города Юлих (Forschungszentrum Julich), с его 72 аппаратными стойками системы IBM Blue Gene/P, 294912 процессорами и пиковой производительностью в один петафлоп. Для справки один петафлоп это квадрильон (Миллион в четвертой степени) операций с плавающей точкой в секунду.