Tin công nghệ

Đánh giá hiệu suất ứng dụng trên một nhóm cơ sở dữ liệu lớn

Một nhà cung cấp dữ liệu trong lĩnh vực tài chính đã làm việc với Dell để so sánh hiệu suất ứng dụng trên một nhóm dữ liệu lớn. Sử dụng phần mềm StackIQTMCluster Manager, nhóm nghiên cứu đã có thễ xác định được cấu hình các máy chủ một cách nhanh chóng khiến cho các bài kiểm tra có chất lượng cao hơn nhiều so với dự kiến ban đầu.

Bước 1: THIẾT LẬP NHÓM DỮ LIỆU

Những kinh nghiệm đầu tiên là vô cùng quý giá đối với quá trình đưa ra quyết định của những chuyên gia công nghệ thông tin đang nghiên cứu điện toán đám mây và những giải pháp cho nhóm dữ liệu lớn. Trong trung tâm giải pháp của Dell Intel Cloud Acceleration Program (DICAP) cung cấp quyền truy cập trực tiếp vào điện toán đám mây và công nghệ cho nhóm dữ liệu lớn. Các thao tác thực hiện qua DICAP rất ngắn gọn bao gồm phần thiết kế cấu trúc hoặc những bài kiểm tra dùng để đánh giá hiệu suất sử dụng dữ liệu hoặc khối lượng công việc của một tổ chức dựa trên cấu trúc của Dell.

Nhóm nghiên cứu DICAP đã tiến hành khảo sát tại một phòng thí nghiệm trong khuôn viên của Dell tại Round Rock, Texas với hàng trăm máy chủ của DellTM PowerEdgeTM đang đảm nhiệm vai trò quản lí và lưu trữ các dữ liệu quan trọng. Một bài kiểm tra dữ liệu điển hình sử dụng công cụ của Dell để kiểm tra 20, 40 và nhiều nút dữ liệu ở trong Apache TM HadoopR.

Bởi vì các tổ chức có nhu cầu khác nhau về không gian lưu trữ lượng dữ liệu lớn vì vậy mà họ cần thiết lập một nhóm các ứng dụng chuyên biệt. Các nhà cung cấp dữ liệu muốn so sánh hiệu quả của Apache CassandraTM và Apache HbaseTM .

Để tiến hành các bài kiểm tra Dell đã phối hợp cùng với StackIQ- một chuyên gia phát triển phần mềm quản lí dữ liệu nhóm của StackIQ Cluster Manager. Đồng thời Dell cũng cộng tác với DataStax- một chuyên gia của Apache Cassandra và Cloudera- chuyên gia của Cloudera’s Distribution Including Hadoop (CDH) và Hbase. Cả bốn công ty này làm việc cùng nhau giống như một đội để phát triển một công cụ kiểm tra linh hoạt đáp ứng được nhu cầu của các nhà cung cấp dữ liệu.

Bước 2: TẠO RA NHÓM DỮ LIỆU LỚN

Những thành viên trong đội DICAP đã sử dụng các máy chủ Dell PowerEdge để tạo ra các nhóm dữ liệu, nút dữ liệu và công cụ truyền tải phục vụ cho việc kiểm tra của các nhà cung cấp dữ liệu. Nhóm dữ liệu của Dell gồm có 3 rack loaị 52U của máy chủ Dell PowerEdge. Ba máy chủ Dell PowerEdge 720 được hỗ trợ bởi bộ vi xử lí IntelR E5-2650 XeonRhoạt động như các nút cơ sở dữ liệu để hỗ trợ quản lí nhóm dữ liệu: một máy chủ chạy phần mềm StackIQ Cluster Manager và 2 máy chủ khác hoạt động tương tự như các nút tên trong các bài kiểm tra Hbase. Để tạo ra các nút dữ liệu và công cụ truyền tải cho thiết bị kiểm tra toàn đội đã điều chỉnh cấu hình của các máy chủ 60 PowerEdge R720xd (được hỗ trợ bởi bộ vi xử lí Intel Xeon E5-2667) đồng thời mỗi máy chủ sử dụng 24 ỗ đĩa có dung lượng mỗi ổ đĩa là 50GB.

Các máy chủ được kết nối với nhau thông qua Gigabit Ethernet (GbE) và 10 Gigabit Ethernet (10GbE) liên kết bằng cách sử dụng tổ hợp chuỗi chuyển mạch Dell Networking S60 GbE và Dell Networking S4810 10GbE. Mạng nội bộ GbE hỗ trợ quản trị máy chủ và kết nối Integrated Dell Remote Access Controller (iDRAC) đồng thời 10 GbE network hoạt động tương tự mạng dữ liệu. Hai chuỗi chuyển mạch Networking S60 trong mỗi rack được kết nối bằng cách sử dụng cáp xếp và liên kết với cơ sở dữ liệu 10 GbE nên 6 chuỗi mạch Dell Networking S4810 xếp chồng lên nhau, mỗi rack 2 cái. Chuỗi mạch Dell Networking S4810 được kết nối với nhau bằng cách sử dụng 2 cổng 40 Gigabit Ethernet (40 GbE) cho mỗi chuỗi.

Bước 3: XÂY DỰNG NHÓM DỮ LIỆU

Đối với bài kiểm tra, nhóm các nhà nghiên cứu DICAP đã sử dụng StackIQ Cluster Manager để tiến hành một số công việc như: lắp đặt các nút dữ liệu bằng kim loại, cài đặt và quản lí cơ sở dữ liệu.

StackIQ Cluster Manager quản lí toàn bộ phần mềm bên trong kim loại và ứng dụng nhóm dữ liệu chẳng hạn như là: Hadoop. Ngoài ra StackIQ Cluster Manager còn cung cấp cơ sở dữ liệu có thông số cấu hình của nhóm dữ liệu. Cấu hình làm việc của phần mềm quản lí nhóm dữ liệu này giúp cơ sở dữ liệu xác định được cấu hình máy chủ, triển khai phần mềm, quản lý dịch vụ và theo dõi môi trường. Các chức năng khác của StackIQ Cluster Manager là:

1) Cung cấp và quản lý hệ điều hành.

2) Thiết lập cấu hình mạng cho máy chủ.

3) Tận dụng các nguồn tài nguyên phần cứng như: bộ nhớ, bộ xử lý và khung ở đĩa để thiết lập thông số cho cụm thông tin.

4)  Thiết lập các bộ điều khiển ở đĩa và sử dụng thông tin này để phân vùng cho các dịch vụ thông tin cụ thể.

5)  Thiết lập hệ thống điều khiển.

6) Cung cấp một giao diện dùng lệnh thống nhất (CLI) và giao diện đồ họa dành cho người dùng (GUI) và giám sát công việc quản lý thông tin.

Ngoài công việc quản lý cơ sở dữ liệu StackIQ Cluster Manager còn đảm nhiệm nhiệm vụ vận hành dịch vụ thông tin hàng ngày. StackIQ Cluster Manager còn tích hợp điều khiển của cấu trúc dữ liệu cơ bản để quản lý dịch vụ thông tin nhóm như là: Công nghệ Hadoop Distributed File System (HDFSTM), MapReduce, Cassandra và Hbase. Quá trình tích hợp này hỗ trợ cho quá trình đo lường thông qua thiết bị tự động hóa, triển khai các trình ứng dụng và quản lý liên quan.

Chi tiết cấu hình

Để tăng cường sức mạnh cho các nhóm dữ liệu được sử dụng để kiểm tra thiết bị cơ sở dữ liệu của một nhà cung ứng dịch vụ tài chính, các kĩ sư tiến hành bài kiểm tra đã tạo lập cấu hình các máy chủ Dell PowerEdge giống như các nút cấu hình, nút dữ liệu và công cụ truyền tải. Ba máy chủ PowerEdge 720 được sử dụng như các nút cấu hình dữ liệu đã được thiết lập cấu hình như sau:

  •  Height: Two rack units
  •  Processor: Two 8-core, 2 GHz Intel Xeon E5-2650 processors
  •  Memory: 128 GB at 1,600 MHz
  •  Disk: Six 600 GB, 15,000 rpm Serial Attached SCSI (SAS) drives
  •  Network: Four Gigabit Ethernet (GbE) LAN on Motherboards (LOMs); two PCI

         Express (PCIe) 10 Gigabit Ethernet (10GbE) network interface cards (NICs)

  •  RAID    controller: PowerEdge RAID Controller H710
  •  Management    card: Integrated Dell Remote Access Controller (iDRAC)

         Enterprise Editio

 Mỗi một máy chủ trong số 60 máy PowerEdge R720xd hoạt động tương tự các nút dữ liệu và công cụ truyền tải được thiết lập với các thông số như sau:

  •  Height: Two rack units
  •  Processor: Two 6-core 2.9 GHz Intel Xeon E5-2667 processors
  •  Memory: 64 GB at 1,600 MHz
  •  Disk: Twenty-four 500 GB, 7,200 rpm nearline SAS drives
  •  Network: Four GbE LOMs; two PCIe 10GbE NICs
  •  RAID controller: PowerEdge RAID Controller H710
  •  Management card: iDRAC Enterprise Edition

Các máy chủ được kết nối với nhau thông qua GbE và 10GbE do các chuyển mạch Dell Networking cung ứng.

Thiết lập và quản lí dữ liệu nhóm

Rất nhiều hướng dẫn cài đặt dữ liệu nhóm giả định rằng một cụm dữ liệu vận hành đã được lắp đặt sẵn, bỏ qua các bước phức tạp và tốn nhiều thời gian để xây dựng và quản lí dữ liệu nhóm. Các hướng dẫn trên nhìn chung đều bắt đầu từ bước 1 nhưng thực ra StackIQ đề cập đến bước đầu tiên là bước 0. Bước 0 trong bài kiểm tra bắt đầu với việc thu thập hình ảnh StackIQ Cluster Core Roll ISO, ghi nó vào đĩa DVD và khởi động. Cluster Core Roll sẽ dẫn người dùng đến một biểu mẫu đơn giản để thực hiện các thao tác như: thiết lập địa chỉ IP của StackIQ Cluster Manager và thiết lập cổng và máy chủ Domain Manager System (DNS). Hệ điểu hành cũng được xem là một Roll và có thể được thêm vào trong quá trình cài đặt bằng cách sử dụng một đĩa DVD hoặc một hình ảnh ISO. Bài kiểm tra này sử dụng hệ điều hành OracleR LinuxR6.3 và 2 hệ điều hành Red HatR Enterprise Linux và CentOSTM.

Sau khi lắp đặt StackIQ Cluster Manager nhóm các nhà nghiên cứu đã lựa chọn thêm 2 Roll cho nhóm thông tin đó là: Cloudera và Cassandra. Sau đó công cụ lắp đặt thông tin từ cả 2 Roll và pha trộn các gói thông tin tự động để tạo ra một trình phân phối Linux Oracle mới.

Công việc lắp đặt và vận hành StackIQ Cluster Manager mất gần 30 phút, sau đó StackIQ Cluster Manager được đưa vào chế độ hoạt động sử dụng GUI. Tất cả các nút cuối cùng được thiết lập cho Preboot Exeution Environment (PXE) và sau đó khởi động. Song song với quá trình trên StackIQ Cluster Manager đã phát hiện và lắp đặt mỗi nút mất gần 15 phút còn những bước khác không cần thiết.

Trang chủ mặc định của StackIQ Cluster Manager GUI cung cấp một giao diện để theo dõi và quản lí cụm thông tin. Thanh bên tay trái có thể được sử dụng để thay đổi giao diện từ Global sang Appliance, Rack hoặc Hosts. Mỗi giao diện cung cấp các tab cho quá trình điều khiển và quản lí. Attributes cho phép thêm, di chuyển và thay đổi dữ liệu trong StackIQ Cluster Manager.

Bước 4: KIỂM TRA HIỆU QUẢ CỦA DỮ LIỆU NHÓM

Nhà cung cấp dữ liệu muốn kiểm tra các nhóm dữ liệu của 10, 20 và 40 nút dữ liệu trong một cơ sở dữ liệu và sau đó nhanh chóng chuyển đổi các nút để chạy trên các ứng dụng khác trong cùng một phần cứng. Trong số 60 nút dữ liệu được sử dụng trong các bài kiểm tra có 20 nút dành riêng để chạy chương trình của nhà cung ứng. Sau 5 bài kiểm tra toàn đội DICAP đã sử dụng StackIQ Cluster Manager để lắp đặt, cung cấp và tái cung cấp 40 nút với những kết nối đa dạng của Cassandra và Hbase.

Các nhà cung cấp rất hứng thú với việc quan sát sự thay đổi cuả các cấu hình do StackIQ Cluster Manager quản lí. Ví dụ nếu 1 nút StackIQ Cluster Manager không hoạt động thì sẽ có một nút mới được xây dựng từ thanh kim loại được thiết kế để chứa đựng tất cả những thiết lập đặc biệt của người dùng.

Đối với bài kiểm tra đầu tiên, 10 node- Cassandra và 10-node Hbase được StackIQ Cluster Manager lắp đặt trên 2 rack riêng biệt. Bài kiểm tra số 2 tiếp tục bước đếm đến số 20 cho mỗi ứng dụng. Đến bài kiểm tra số 3 thì 20 nút Hbase được chuyển đổi thành nút Cassandra. Bài kiểm tra số 4 chuyển 40 nút Cassandra thành các nút Hbase. Bài kiểm tra số 5 chuyển 40 nút Hbase quay trở lại nút Cassandra.

Đối với các bài kiểm tra số 1 và số 2 đội DICAP đã kiểm tra khả năng mở rộng các nút tự động của StackIQ Cluster Manager. Sau khi thành lập 10 nút trên cơ sở dữ liệu thì trong bài kiểm tra số 2 toàn đội đã đưa các nút đó vào quy trình có sử dụng StackIQ Cluster Manager để thêm vào 10 nút nữa cho đến khi mỗi ứng dụng có đủ 20 nút.

Trong bài kiểm tra số 3 cả nhóm nghiên cứu đã sử dụng StackIQ Cluster Manager để chuyển 20 nút Hbase trở lại thành các nút Cassandra. Dell PowerEdge RAID Controllers (PERCs) được chuyển đổi tự động thành Cassandra- 1 số đĩa đơn RAID-0 và 12 đĩa RAID-10. Sau đó 20 nút đã được chuyển đổi sẽ được tích hợp vào 20 nút Cassandra hiện có sử dụng thuật toán ngẫu nhiên nâng số nút lên 40.

Mục tiêu

Bài kiểm tra số 4 sử dụng StackIQ Cluster Manager để cài đặt tự động trần kim loại cho 40 nút Cassandra và sử dụng tối đa các phần mềm cơ bản và PERCs cho Hbase. Tiếp đó StackIQ Cluster Manager chuyển đổi các nút Cassandra thành các nút Hbase và đưa 40 nút Hbase lên mạng trực tuyến.

Quy trình này mất 1h38 phút và cần phải chuyển đổi cấu hình và khởi động 40 nút HDFS (4 nút lệnh), 40-node MapReduce (3 nút lệnh), 3-node Apache ZooKeeperTM(3 nút lệnh ) và 40-node Hbase ( 3 nút lệnh ). StackIQ Cluster Manager phối hợp xây dựng lại gần như ¼ Petabyte từ đĩa RAID-10 đến chuỗi các đĩa RAID (RBOD) được định dạng với XFS.

Trong bài kiểm tra số 5 toàn đội đã chuyển đổi 40 nút Hbase trở lại thành các nút Cassandra và sử dụng StackIQ Cluster Manager để thực hiện cài đặt kim loại cho 40 nút đồng thời cũng thiết lập những thông số kĩ thuật mới cho cấu hình tự động PERCs.

Do tính chất hoạt động song song của hệ thống cài đặt và quản lí nên việc chuyển đổi các quy trình trong các bài kiểm tra số 3,4 và 5 chiếm mất lượng thời gian gần như là bằng nhau với điều kiện là nhóm thông tin có 400 chứ không phải là 40 nút.

Bước 5: TẬP TRUNG VÀO KẾT QUẢ

Sử dụng StackIQ Cluster Manager, nhà cung cấp dữ liệu tài chính có thể nhanh chóng cung cấp và tái cung cấp các máy chủ để chạy 2 ứng dụng khác nhau với các cấu hình khác nhau trên cùng một nhóm dữ liệu lớn của Dell. Kết thúc bài kiểm tra các kĩ sư nhận xét rằng khả năng bố trí nhanh của StackIQ Cluster Manager cho phép họ thí nghiệm trên nhiều cấu hình hơn họ nghĩ ban đầu. Cùng với đó họ còn có thể tập trung vào kiểm tra Cassandra và Hbase chứ không đơn thuần chỉ là dành thời gian để suy nghĩ cách bố trí và thiết kế cấu hình máy chủ sao cho hợp lí. Nhìn chung các bài kiểm tra thông qua DICAP cho phép các tổ chức nhận ra rằng các giải pháp mà Dell cung cấp giúp họ dễ dàng khởi dộng dịch vụ điện toán đám mây và sử dụng một lượng dữ liệu lớn một cách hợp lí.

Sarah

Top