Що таке Big Data і як це працює

Прочитавши цю статтю, ти зрозумієш не лише що таке Big Data, а й те, що робота з Big Data є доволі перспективною.

А разом з Юлією Вакал на вебінарі: Testing in Big Data Environment дізнаєшся про роль та еволюцію тестувальника в Big Data Environment.

copy_obkladynka_facebook-podii_1920x1080_piks_-_korystuvatcki_rozmiry_3.300x0.jpeg

Ми живемо у величезному цифровому просторі. Створюємо, ділимося, керуємо та зберігаємо всі аспекти нашого життя онлайн.

Дані з усіх наших пристроїв – комп'ютерів, планшетів та смартфонів постійно збираються та передаються в мережу.

Та навіть з годинників, телевізорів, датчиків в розумних будинках, автомобілів, обладнань та з безлічі інших девайсів.

Ми самі продукуємо гігабайти інформації (спілкування в соцмережах, покупки онлайн, пошук, завантаження додатків)

Якщо зібрати всю інформацію, яку накопичило людство з початку часів включно до 2000-го року, то виявиться, що її менше, ніж ми продукуємо зараз протягом лише однієї хвилини.

Цей феномен повністю змінює розуміння світу та нашого місця в ньому. Він також відомий під назвою Big Data.

  • Які ключові характеристики Big Data?

Big Data ("великі дані") – група технологій та методів, за допомогою яких аналізують та обробляють величезну кількість даних, як структурованих, так і неструктурованих, для отримання якісно нових знань. Якщо підсумувати, то це інформація, що не піддається обробці класичними способами через її величезний об'єм.

  • Які дані можна віднести до Big Data?

Є п'ять ключових характеристик, які ще називають "п'ять V":

Volume (об'єм) – накопичена база даних охоплює настільки великий обсяг інформації, що його практично нереально обробляти та зберігати традиційними способами. Для них потрібен зовсім новий підхід та вдосконалені інструменти.

Velocity (швидкість) – швидкість накопичення та обробки даних, яка постійно збільшується. Наприклад, 90 відсотків всієї інформації, якою оперує людство, зібрано за останні два роки. Останнім часом збільшується попит на технології, що дозволяють використовувати обробку даних в режимі реального часу.

Variety (різноманітність) – можливість одночасно обробляти структуровану та неструктуровану інформацію.

Структурована інформація – це така, яку можна класифікувати. Наприклад, це може бути інформація з банківської бази даних, де чітко вказаний перелік клієнтів та їхні фінансові транзакції.

Неструктурована інформація охоплює різноманітні масиви даних, такі як фото, відео, текстові записи та інші дані. Найкращим прикладом є соціальні мережі. Її об'єм складає приблизно 80 відсотків від всієї інформації. Неструктурована інформація потребує комплексного аналізу перед можливістю її використання.

Veracity (достовірність) – виокремлення достовірних даних. Якість зафіксованих даних може сильно відрізнятися, тим самим впливаючи на точний аналіз.

Variability (мінливість) – невідповідність інформації ускладнює та подекуди заважає процесам обробки та управління даними.

  • Як це працює?

Чим більшою кількістю інформації ми володіємо, тим точніший прогноз можливо зробити. Також можливість порівняння певних даних та взаємозв'язків між ними дозволяє знайти закономірності, які були приховані до цього. Все це забезпечує глибинне розуміння проблем та, в кінцевому результаті, дозволяє знайти рішення, або можливості керування потрібними процесами.

Процес обробки великих об'ємів даних включає в себе побудову моделей та запуск симуляцій, під час яких постійно змінюються ключові налаштування, при цьому система постійно відслідковує, як ці зміни впливають на можливий результат. Це все відбувається автоматично, допоки не буде знайдено ключовий момент, який допоможе вирішити поставлену задачу.

Для перетворення неструктурованих даних у такі, що сприйматимуться людьми, використовуються найсучасніші технології аналізу. До них можна віднести штучний інтелект та машинне навчання.

  • У яких сферах застосовують Big Data?

Великий інформаційний потік, який складає основу Big Data, дозволяє отримувати кардинально нові знання, які були недоступні ще кілька років тому.

Вже зараз проекти, що базуються на Big Data допомагають:

Лікувати хвороби.

Завдяки аналізу величезної кількості медичних записів та обробки медичних знімків можливо точніше і раніше ставити діагнози, краще розуміти природу різноманітних захворювань та винаходити нові ліки та методи лікування.

Боротися з голодом.

Сільське господарство переживає справжню революцію Big Data, яка допомагає використовувати ресурси так, щоб максимально збільшити врожаї при мінімальному втручанні в екосистему. А також здешевити вирощені продукти внаслідок оптимального використання обладнання та добрив.

Відкривати нові далекі планети.

НАСА завдяки аналізу великої кількості даних отриманих з телескопів має змогу визначати хімічні склади атмосфер планет, що знаходяться на відстані багатьох світлових років, та робити припущення про їх придатність для життя.

Прогнозувати надзвичайні ситуації.

Завдяки даним з численних сенсорів та супутників науковці можуть передбачати де і коли можуть відбутися землетруси або природні катаклізми, чи змоделювати людську поведінку під час надзвичайних ситуацій, завдяки чому збільшаться шанси на виживання.

Запобігати злочинам. Внаслідок використання нових технологій та аналізу обширних даних з'явилася можливість автоматично попереджувати фінансові махінації з пластиковими картками та відмиванням грошей.

Оптимізувати прибутки. Торгові мережі випускають нові продукти з високим попитом та впроваджують глобальні маркетингові компанії, які орієнтовані під окремий сегмент покупців.

Покращити ефективність держави.

Міністерство праці Німеччини використовує Big Data для аналізу заявок на отримання допомоги по безробіттю. При початковому аналізі виявилося, що 20 відсотків допомог виплачувалися незаслужено. Завдяки цьому уряд скоротив видатки на 10 мільярдів євро.

Це лише декілька прикладів. Насправді сфер, в яких використовується Big Data на сьогодні дуже велика кількість, яка з кожним днем буде збільшуватися допоки не охопить всі наявні.

  • Які ризики може мати використання Big Data?

Big Data збирає неймовірну кількість інформації, що стосується нашого приватного життя, яку ми б воліли зберігати в таємниці. Тому резонно постає питання балансу між тим, чим ми готові ділитися, та тим, наскільки комфортнішим може стати наше життя завдяки відкритості. Великі корпорації можуть маніпулювати цими даними роблячи нас певною мірою своїми заручниками.

Навіть якщо припустити, що Big Data буде використовуватися лише в шляхетних цілях, немає ніякої гарантії, що персональні дані зможуть бути надійно захищені від зловмисників та хакерів.

Більше про роботу тестувальника в Big Data ти дізнаєшся на нашому вебінарі

Testing in Big Data Environment

copy_obkladynka_facebook-podii_1920x1080_piks_-_korystuvatcki_rozmiry_3.300x0.jpeg

Курси та події

Публікації

Відео