Big Data là gì?

Big Data là gì?

Phân tích nhiều dữ liệu chỉ là một phần của việc khiến phân tích big data khác với việc phân tích dữ liệu trước đây. Hãy cùng tìm hiểu các khía cạnh khác.

Có data, và sau đó có big data. Vậy, sự khác biệt là gì?

Big Data là gì?

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể thu thập, quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.

Những tập hợp dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc (structured data), dữ liệu không cấu trúc (unstructured data) và dữ liệu nửa cấu trúc (semistructured data), mỗi tập hợp có chút khác biệt.

Trên thực tế, việc bao nhiêu dữ liệu đủ để gọi là “big” vẫn còn nhiều tranh luận, nhưng nó có thể là các bội số của petabyte - và với các dự án lớn nhất trong phạm vi exabyte (bội số của byte).

Thông thường, Big Data có 3 điểm đặc trưng:

  • Khối lượng dữ liệu cực lớn;
  • Nhiều loại dữ liệu đa dạng;
  • Vận tốc mà dữ liệu cần phải được xử lý và phân tích.

Dữ liệu tạo thành các kho dữ liệu lớn có thể đến từ các nguồn bao gồm các trang web, phương tiện truyền thông xã hội, ứng dụng dành cho máy tính để bàn, ứng dụng trên thiết bị di động, các thí nghiệm khoa học, thiết bị cảm biến ngày càng tăng và các thiết bị khác trong mạng lưới thiết bị kết nối Internet (IoT- internet of things).

Khái niệm Big Data đi kèm với các thành phần có liên quan cho phép các tổ chức đưa dữ liệu vào sử dụng thực tế và giải quyết một số vấn đề trong kinh doanh, bao gồm cơ sở hạ tầng IT cần để hỗ trợ Big Data, các phân tích áp dụng với dữ liệu, công nghệ cần thiết cho các dự án Big Data, các bộ kỹ năng liên quan và các trường hợp thực tế có ý nghĩa đối với Big Data.

Big Data và Analytics

Điều thực sự mang lại giá trị từ tất cả các tổ chức dữ liệu lớn đang thu thập là phân tích dữ liệu (Analytics). Nếu không phân tích, nó chỉ là một bó dữ liệu với việc sử dụng hạn chế trong kinh doanh.

Bằng cách áp dụng phân tích vào dữ liệu lớn, các công ty có thể nhận thấy những lợi ích như tăng doanh thu, dịch vụ khách hàng được cải thiện, hiệu quả cao hơn và tăng khả năng cạnh tranh.

Phân tích dữ liệu liên quan đến việc kiểm tra bộ dữ liệu để thu thập thông tin chi tiết hoặc rút ra kết luận về những gì bao gồm trong đó, chẳng hạn các xu hướng và dự đoán về hoạt động trong tương lai.

Bằng cách phân tích dữ liệu, các tổ chức có thể đưa ra những quyết định kinh doanh tốt hơn như thời gian và địa điểm nên chạy chiến dịch tiếp thị hoặc giới thiệu sản phẩm hoặc dịch vụ mới.

Việc phân tích có thể tham khảo các ứng dụng kinh doanh thông minh hay tiên tiến hơn, phân tích dự đoán như ứng dụng được các tổ chức khoa học sử dụng. Loại phân tích dữ liệu cao cấp nhất là data mining, nơi các nhà phân tích đánh giá bộ dữ liệu lớn để xác định mối quan hệ, mô hình và xu hướng.

Phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò (để xác định các mẫu và mối quan hệ trong dữ liệu) và phân tích dữ liệu xác nhận (áp dụng các kỹ thuật thống kê để tìm ra giả thiết về bộ dữ liệu đó có đúng hay không).

Một mảng khác là phân tích dữ liệu định lượng (hoặc phân tích dữ liệu số có các biến có thể so sánh theo thống kê) so với phân tích dữ liệu định tính (tập trung vào các dữ liệu không phải dữ liệu cá nhân như video, hình ảnh và văn bản).

Cơ sở hạ tầng IT hỗ trợ Big Data

Đối với khái niệm Big Data trong công việc, các tổ chức cần phải có cơ sở hạ tầng để thu thập và chứa dữ liệu, cung cấp quyền truy cập và đảm bảo thông tin trong khi lưu trữ và vận chuyển.

Ở cấp độ cao, bao gồm hệ thống lưu trữ và các máy chủ được thiết kế cho Big Data, phần mềm quản lý và tích hợp dữ liệu, phần mềm kinh doanh thông minh (business intelligence) và phân tích dữ liệu, các ứng dụng Big Data.

Phần lớn cơ sở hạ tầng này sẽ có mặt tại chỗ vì các công ty muốn tiếp tục tận dụng các khoản đầu tư trung tâm dữ liệu của mình. Tuy nhiên, ngày càng có nhiều tổ chức dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu dữ liệu lớn của họ.

Thu thập dữ liệu yêu cầu phải có nguồn. Rất nhiều trong số những ứng dụng sau, như các ứng dụng web, các kênh truyền thông xã hội, ứng dụng di động và lưu trữ email đã được cài sẵn. Nhưng khi IoT trở nên phổ biến hơn, các công ty có thể sẽ cần triển khai cảm biến trên tất cả các thiết bị, phương tiện và sản phẩm để thu thập dữ liệu, cũng như các ứng dụng mới tạo ra dữ liệu người dùng. (Phân tích dữ liệu theo định hướng IoT có các kỹ thuật và công cụ chuyên biệt của nó.)

Để lưu trữ tất cả dữ liệu đến, các tổ chức cần phải có đủ dung lượng lưu trữ tại chỗ. Các tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, data lake (kho lưu trữ khối lượng dữ liệu thô rất lớn ở định dạng gốc cho đến khi người dùng doanh nghiệp cần dữ liệu) và lưu trữ trên đám mây.

Các công cụ cơ sở hạ tầng bảo mật bao gồm việc mã hóa dữ liệu, xác thực người dùng và các điều khiển truy cập khác, hệ thống giám sát, tường lửa, quản lý di động của doanh nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu.

Công nghệ dữ liệu lớn cụ thể (Big-data-specific technologies)

Hệ sinh thái Hadoop

Hadoop là một trong những công nghệ liên quan chặt chẽ nhất với big data. Dự án Apache Hadoop phát triển phần mềm mã nguồn mở cho máy tính có khả năng mở rộng và phân tán.

Thư viện phần mềm Hadoop là một khuôn mẫu cho phép xử lý phân tán các bộ dữ liệu lớn trên các nhóm máy tính sử dụng các mô hình lập trình đơn giản. Nó được thiết kế để mở rộng từ một máy chủ duy nhất sang hàng ngàn máy khác, mỗi máy cung cấp tính toán và lưu trữ cục bộ.

Dự án bao gồm rất nhiều phần:

  • Hadoop Common, các tiện ích phổ biến hỗ trợ các phần Hadoop khác
  • Hadoop Distributed File System, cung cấp khả năng truy cập dữ liệu ứng dụng cao
  • Hadoop YARN, một khuôn mẫu cho kế hoạch làm việc và quản lý tài nguyên cụm
  • Hadoop MapReduce, một hệ thống dựa trên YARN để xử lý song song bộ dữ liệu lớn.

Apache Spark

Một phần của hệ sinh thái Hadoop, Apache Spark là một khuôn mẫu tính toán cụm nguồn mở được sử dụng làm công cụ xử lý big data trong Hadoop.

Spark đã trở thành một trong những khuôn mẫu xử lý big data quan trọng, và có thể được triển khai theo nhiều cách khác nhau. Nó cung cấp các phương thức hỗ trợ đối với Java, Scala, Python (đặc biệt là Anaconda Python distro ), và ngôn ngữ lập trình R ( R đặc biệt phù hợp với big data ) và hỗ trợ SQL, streaming data, machine learning và xử lý đồ thị.

Data lakes

Data lakes là các kho lưu trữ chứa khối lượng dữ liệu thô rất lớn ở định dạng gốc của nó cho đến khi những người dùng doanh nghiệp cần dữ liệu.

Các yếu tố giúp tăng trưởng data lakes là những phong trào kỹ thuật số và sự phát triển của IoT. Các data lakes được thiết kế để giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu khi có nhu cầu.

NoSQL Databases

Các cơ sở dữ liệu SQL thông thường được thiết kế cho các transaction đáng tin cậy và các truy vấn ngẫu nhiên.

Nhưng chúng có những hạn chế như giản đồ cứng nhắc làm cho chúng không phù hợp với một số loại ứng dụng. Cơ sở dữ liệu NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và sự linh hoạt tuyệt vời.

Nhiều cơ sở dữ liệu đã được phát triển bởi các công ty để tìm cách tốt hơn để lưu trữ nội dung hoặc xử lý dữ liệu cho các trang web lớn. Không giống như các cơ sở dữ liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên hàng trăm hoặc hàng ngàn máy chủ.

In-memory databases

Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính (Ram), thay vì HDD, để lưu trữ dữ liệu. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra các kho dữ liệu và các siêu dữ liệu. Đọc thêm Redis là gì?

Các kĩ năng Big data

Big data và các nỗ lực phân tích big data yêu cầu kĩ năng cụ thể, dù là từ bên trong tổ chức hay thông qua các chuyên gia bên ngoài.

Nhiều kĩ năng có liên quan đến các thành phần công nghệ dữ liệu quan trọng như Hadoop, Spark, NoSQL, cơ sở dữ liệu trong bộ nhớ và phần mềm phân tích.

Với độ phổ biến của các dự án phân tích dữ liệu và sự thiếu hụt nhân lực về các kĩ năng trên, việc tìm kiếm các chuyên gia có kinh nghiệm có thể là một trong những thách thức lớn nhất đối với các tổ chức.

Leave a Reply

* Name:
* E-mail: (Not Published)
   Website: (Site url withhttp://)
* Comment:
Type Code