Bài viết này sẽ giới thiệu tổng quan về quản trị dữ liệu bao gồm một số định nghĩa về quản trị dữ liệu, phân biệt quản trị dữ liệu và quản lý dữ liệu, lợi ích và tầm quan trọng của quản trị dữ liệu, một số giải pháp quản trị dữ liệu, một số nguyên tắc quản trị dữ liệu.
Một số định nghĩa về quản trị dữ liệu
a) Quản trị dữ liệu là một khái niệm của quản lý dữ liệu liên quan đến khả năng cho phép một cơ quan, tổ chức bảo đảm rằng chất lượng dữ liệu cao tồn tại trong suốt vòng đời hoàn chỉnh của dữ liệu. Các lĩnh vực trọng tâm của quản trị dữ liệu bao gồm tính khả dụng, khả năng sử dụng, tính nhất quán, tính toàn vẹn dữ liệu, bảo mật dữ liệu, thiết lập các quy trình để bảo đảm quản lý dữ liệu hiệu quả trong toàn bộ cơ quan, tổ chức. Người quản lý dữ liệu đóng vai trò bảo đảm các quy trình quản trị dữ liệu được tuân thủ, các hướng dẫn được thi hành và khuyến nghị cải tiến các quy trình quản trị dữ liệu. [3]
b) Quản trị dữ liệu là tập hợp các quy trình, vai trò, chính sách, tiêu chuẩn và số liệu bảo đảm việc sử dụng thông tin hiệu lực và hiệu quả trong việc cho phép một tổ chức đạt được mục tiêu của mình. Nó thiết lập các quy trình và trách nhiệm bảo đảm chất lượng và bảo mật của dữ liệu được sử dụng trên toàn doanh nghiệp hoặc tổ chức. Quản trị dữ liệu xác định ai có thể thực hiện hành động nào, dựa trên dữ liệu nào, trong tình huống nào, sử dụng phương pháp nào. [4]
c) Quản trị dữ liệu xác định các quy tắc, ảnh hưởng và quy định cho dữ liệu để thiết lập và giám sát chính sách phù hợp. Các quy tắc và chính sách này thiết lập quyền quyết định cũng như các biện pháp kiểm soát đảm bảo an ninh, trách nhiệm và sự tin cậy. Quản trị không phải là hoạt động giám sát hàng ngày, mà là nền tảng vững chắc cho một hệ thống quản lý dữ liệu khả thi. [5]
d) Quản trị dữ liệu là một tập hợp các thực tiễn và quy trình giúp bảo đảm quản lý chính thức các tài sản dữ liệu trong một cơ quan, tổ chức. Quản trị dữ liệu thường bao gồm các khái niệm khác như quản lý dữ liệu, chất lượng dữ liệu và các khái niệm khác để giúp cơ quan, tổ chức kiểm soát tốt hơn các tài sản dữ liệu của mình, bao gồm các phương pháp, công nghệ và hành vi xung quanh việc quản lý dữ liệu phù hợp. Nó cũng liên quan đến bảo mật và quyền riêng tư, tính toàn vẹn, khả năng sử dụng, tích hợp, tuân thủ, tính sẵn sàng, vai trò và trách nhiệm và quản lý chung các luồng dữ liệu bên trong và bên ngoài của một cơ quan, tổ chức. [6]
đ) Quản trị dữ liệu có thể được định nghĩa là một cách tiếp cận có tổ chức để quản lý dữ liệu và thông tin được chính thức hóa thành một tập hợp các chính sách và quy trình bao gồm toàn bộ vòng đời của dữ liệu, từ thu thập đến sử dụng, xử lý. Các bước chính để tạo ra một chương trình quản trị dữ liệu mạnh mẽ bao gồm [2]:
- Xác định thẩm quyền ra quyết định mang tính tổ chức;
- Xác định các tiêu chuẩn, chính sách dữ liệu và thủ tục để hướng dẫn các quy trình quản lý dữ liệu khác nhau, bao gồm an ninh dữ liệu và bảo vệ quyền riêng tư, kiểm soát chất lượng dữ liệu và các hoạt động phổ biến dữ liệu;
- Thực thi các chính sách và thủ tục này;
- Giám sát việc tuân thủ các tiêu chuẩn, chính sách và thủ tục đã thiết lập.
Một chương trình quản trị dữ liệu bao gồm:
- Bảo vệ dữ liệu nhạy cảm;
- Đánh giá lỗ hổng và quản lý rủi ro;
- Thực thi các yêu cầu tuân thủ pháp luật, quy định, hợp đồng và kiến trúc;
- Xác định các bên liên quan, vai trò và trách nhiệm của họ;
- Quản lý truy cập.
Phân biệt quản trị dữ liệu và quản lý dữ liệu [4]
Quản trị dữ liệu thường bị nhầm lẫn với các thuật ngữ và khái niệm liên quan khác, bao gồm quản lý dữ liệu. Quản lý dữ liệu đề cập đến việc quản lý các nhu cầu vòng đời dữ liệu đầy đủ của một tổ chức. Quản trị dữ liệu là thành phần cốt lõi của quản lý dữ liệu, liên kết các lĩnh vực khác như chất lượng dữ liệu, quản lý dữ liệu tham chiếu và dữ liệu gốc, bảo mật dữ liệu, hoạt động cơ sở dữ liệu, quản lý siêu dữ liệu và lưu trữ dữ liệu.
Từ điển quản lý dữ liệu định nghĩa quản trị dữ liệu là việc thực thi quyền lực, kiểm soát và ra quyết định chung (lập kế hoạch, giám sát và thi hành) đối với việc quản lý tài sản dữ liệu. Các sáng kiến quản trị dữ liệu cung cấp nền tảng để phát triển các giao thức và thủ tục quản lý dữ liệu phù hợp. Mặt khác, quản lý dữ liệu là quá trình đưa các chính sách quản trị vào hoạt động. Quản trị cung cấp một khuôn khổ; sau đó, cơ quan, tổ chức có thể xác định các khu vực để quản lý (như bảo mật, cơ sở dữ liệu và kiểm soát tài liệu) và quản lý cơ sở hạ tầng hoặc kiến trúc. “Quản trị” thiết lập lý do tại sao và ai cho khả năng truy cập và kiểm soát dữ liệu, trong khi “Quản lý” thiết lập nơi truy cập và cách thức truy cập.
Lợi ích và tầm quan trọng của quản trị dữ liệu [2] [6] [7]
Một số lợi ích của quản trị dữ liệu bao gồm:
- Chi phí thấp hơn liên quan đến các lĩnh vực khác của Quản lý dữ liệu.
- Thủ tục chính xác hơn xung quanh quy định và các hoạt động tuân thủ.
- Minh bạch hơn trong bất kỳ hoạt động liên quan đến dữ liệu.
- Trợ giúp với việc thực hiện đào tạo và thực hành giáo dục tốt hơn xung quanh việc quản lý tài sản dữ liệu.
- Tăng giá trị của một dữ liệu tổ chức.
- Khả năng cung cấp các hệ thống dữ liệu được tiêu chuẩn hóa, chính sách dữ liệu, quy trình dữ liệu và tiêu chuẩn dữ liệu.
- Giải quyết tốt hơn các vấn đề dữ liệu trong quá khứ và hiện tại.
- Cải thiện cơ chế giám sát và theo dõi cho chất lượng dữ liệu và các hoạt động liên quan đến dữ liệu khác.
- Tăng trưởng doanh thu chung.
Quản trị dữ liệu quan trọng bởi vì quản trị dữ liệu chủ động là cần thiết để bảo đảm tính bảo mật, tính toàn vẹn, khả năng truy cập, tính sẵn có và chất lượng của dữ liệu. Thiết lập quản trị dữ liệu là một nhiệm vụ quan trọng đối với bất kỳ tổ chức nào. Nó đòi hỏi xác định tầm nhìn tổ chức, chính sách và thực tiễn; giành được sự ủng hộ của các bên liên quan; thực hiện chương trình; và theo dõi sự thành công của nó. Bằng cách phác thảo rõ ràng các chính sách, thủ tục chuẩn, trách nhiệm và kiểm soát các hoạt động dữ liệu xung quanh, chương trình quản trị dữ liệu giúp bảo đảm thông tin được thu thập, duy trì, sử dụng và phổ biến theo cách bảo vệ quyền riêng tư, bảo mật và an ninh của cá nhân, trong khi tạo ra dữ liệu thống kê kịp thời và chính xác.
Quản trị dữ liệu là một yếu tố quan trọng để quản lý thành công các hệ thống dữ liệu phức tạp. Nó cho phép các tổ chức giải quyết hiệu quả hơn các thách thức liên quan đến chia sẻ dữ liệu, thay đổi theo thời gian và đáp ứng nhu cầu của các nhóm bên liên quan khác nhau trong và ngoài cơ quan. Những lợi ích của cách tiếp cận chủ động đối với quản trị dữ liệu bao gồm:
- Cải thiện độ chính xác của dữ liệu, đạt được bằng cách lập lịch kiểm toán chất lượng dữ liệu thường xuyên và sử dụng các tiêu chuẩn dữ liệu nhất quán trong việc đặt tên biến và phân loại siêu dữ liệu;
- Cải thiện khả năng sử dụng dữ liệu, xuất phát từ việc giám sát nội dung dữ liệu về tính nhất quán với tầm nhìn của tổ chức và nhu cầu của các bên liên quan;
- Cải thiện tính kịp thời của dữ liệu, được thực hiện bằng cách tránh trùng lặp các nỗ lực thu thập dữ liệu không cần thiết và giảm công việc cần thiết để đối chiếu các lỗi hoặc sai lệch khi hợp nhất hoặc chia sẻ dữ liệu;
- Tăng cường an ninh dữ liệu, có được bằng cách thiết kế một kế hoạch an ninh toàn diện và áp dụng các mức bảo vệ phù hợp cho dữ liệu dựa trên mức độ nhạy cảm của chúng.
Chức năng của quản trị dữ liệu bao gồm việc thực thi thẩm quyền, kiểm soát và ra quyết định chung (lập kế hoạch, giám sát và thực thi) đối với việc quản lý tài sản dữ liệu. Quản trị dữ liệu đóng vai trò rất quan trọng trong việc đạt được chất lượng dữ liệu cao. Quản trị dữ liệu tạo ra một cấu trúc có tổ chức nhằm phát triển và thực thi các chính sách, quy tắc, quy trình và thủ tục để bảo đảm và cải thiện chất lượng dữ liệu trong một tổ chức.
Một số giải pháp quản trị dữ liệu [8]
1) Amazon Web Services (AWS)
Bắt đầu với Dịch vụ lưu trữ đơn lẻ (Simple Storage Service - S3), quản trị dữ liệu AWS bao gồm Elastic MapReduce, Athena, một công cụ truy vấn có đồng hồ đo cho dữ liệu cư trú trong S3. Để cung cấp môi trường đám mây của bạn, AWS CloudFormation cho phép người dùng sử dụng một tệp văn bản đơn giản để mô hình hóa và cung cấp tất cả các tài nguyên cần thiết cho các ứng dụng của mình. Amazon CloudWatch theo dõi và thu thập các số liệu trên tất cả các tài nguyên của người dùng. AWS Systems Manager cho phép người dùng giám sát tất cả các tài nguyên của mình và tự động hóa các tác vụ vận hành phổ biến. Cuối cùng, có AWS OpsWorks để quản lý cấu hình.
2) IBM
IBM cung cấp DBMS độc lập, bao gồm các phiên bản khác nhau của DB2, Hệ thống PureData của IBM cho trình phân tích, trình tăng tốc phân tích của DB2, Hadoop thông qua IBM BigInsights, Phương pháp dữ liệu đầu tiên và Nền tảng dữ liệu IBM Watson. Hệ thống quản trị chính của nó là máy chủ thông tin IBM, cung cấp quản trị thống nhất dữ liệu của người dùng. Nó giúp người dùng tìm và tìm kiếm thông qua các tài sản, khám phá mối quan hệ giữa các tài sản, tìm kiếm các nguồn dữ liệu phi cấu trúc cũng như cơ sở dữ liệu có cấu trúc và cho phép tự động phát hiện dữ liệu mới.
3) Microsoft
Quản trị dữ liệu của Microsoft bắt đầu với bộ năng suất hàng đầu của nó, Office 365. Nó cho phép khách hàng quản lý vòng đời nội dung đầy đủ, từ tạo hoặc nhập dữ liệu đến lưu trữ và tạo chính sách để giữ và xóa vĩnh viễn nội dung. Điều đó chạy trên một loạt các sản phẩm của Microsoft được tái sử dụng cho đám mây, bắt đầu với SQL Server, cả tại chỗ và trong Azure. Nó cung cấp một thiết bị kho dữ liệu có tên Azure SQL Data Warehouse, một bản phân phối Hadoop dựa trên Hortonworks có tên Azure HDInsight và Azure Data Lake để thu thập dữ liệu. Kho dữ liệu Azure SQL cũng dành cho sự quan tâm ngày càng tăng trong lưu trữ dữ liệu đám mây.
4) Oracle
Oracle bắt đầu với sản phẩm chủ lực của mình, Cơ sở dữ liệu Oracle 12c cùng với Hệ thống quản lý dữ liệu lớn của Oracle, SQL Big Data SQL và Big Data Connector. Đối với quản trị dữ liệu cụ thể, nó có Trình quản lý siêu dữ liệu doanh nghiệp Oracle (OEMM) và chất lượng dữ liệu doanh nghiệp của Oracle (EDQ). Nó cũng cung cấp các hệ thống phần cứng chìa khóa trao tay cho ngăn xếp phần mềm của mình thông qua Máy cơ sở dữ liệu Oracle Exadata và công cụ dữ liệu lớn của Oracle và có các dịch vụ đám mây như Cơ sở dữ liệu Oracle như một dịch vụ, Dịch vụ đám mây siêu dữ liệu và Dịch vụ đám mây dữ liệu lớn.
5) SAP
Đối thủ cạnh tranh cuối cùng của Oracle còn lại, SAP cung cấp IQ DBMS và Hana cho DBMS trong bộ nhớ và phân tích. Hana đã được cập nhật để bao gồm các tính năng như sao lưu và phục hồi thảm họa, phân tích, tích hợp với Apache Spark và đa nhiệm. SAP Hana là một thành phần của Nền tảng SAP. Sau đó, có Quản trị dữ liệu gốc SAP, hợp nhất và quản lý dữ liệu từ một vị trí để bảo đảm chất lượng và tính nhất quán của dữ liệu.
6) Teradata
Teradata được biết đến với các nền tảng phân tích, bao gồm DBMS, thiết bị kho dữ liệu và kho dữ liệu đám mây. Nó có kết nối thông qua Hadoop thông qua Aster Analytics và truyền dữ liệu qua Teradata Listener, tất cả đều được thiết kế để biểu diễn thông tin qua một giao diện hợp nhất duy nhất. Và chức năng Quản lý dữ liệu gốc của nó là một khung vòng đời hoàn chỉnh để quản trị dữ liệu.
7) Cloudera
Cloudera là một trong ba công ty phân phối lớn của Hadoop và rất thành công ở đó. Nó cung cấp Cloudera Enterprise, một bản phân phối Hadoop với cả Hadoop cho các phân tích hàng loạt và Spark cho các phân tích thời gian thực, cộng với Cloudera Navigator để quản trị, Cloudera Manager và Cloudera Director cho quản trị cụm cả tại chỗ, trên đám mây; hỗ trợ AWS, Azure và nền tảng đám mây của Google.
8) Dell Boomi
Boomi là một đơn vị kinh doanh trong Dell được mua lại vào năm 2010, chuyên về quản lý dữ liệu gốc cả tại chỗ và trên đám mây. Boomi có ít hoặc không phát triển mã hóa thông qua Thư viện quy trình Boomi, nơi cung cấp các ví dụ để xây dựng các ứng dụng quản trị. Nó cũng hỗ trợ các nhà cung cấp và trình kết nối PaaS cho Azure, AWS và Google, cung cấp các trình kết nối EDI để kết nối với các đối tác và hỗ trợ các Docker cho các phương thức phát triển DevOps.
9) SAS
Toàn bộ nghiệp vụ của SAS được xây dựng trên các phân tích. Nó cung cấp một giải pháp quản lý dữ liệu gốc gọi là Quản trị dữ liệu SAS để giúp các tổ chức chuẩn bị và quản lý cả nguồn dữ liệu lớn và dữ liệu truyền thống. Nó cho phép người dùng duy trì và quản lý các thuộc tính dữ liệu thông qua một mô hình dữ liệu chung, gắn cờ thay đổi siêu dữ liệu, tạo ảnh chụp nhanh, lưu trữ và quản lý danh sách, phân cấp và tạo báo cáo về tình trạng dữ liệu và mọi khắc phục cần thiết.
10) Phần mềm TIBCO
TIBCO MDM chuyên cung cấp một khung nhìn thống nhất về dữ liệu của tổ chức được lưu trữ trong các silo khác nhau, nó cho phép các tổ chức có được cái nhìn rõ ràng về dữ liệu nghiệp vụ của họ và hành động nhanh chóng. TIBCO MDM cung cấp trực quan hóa quy trình công việc dữ liệu trong toàn tổ chức, cho phép các tổ chức quan sát các quy trình và cải thiện khi cần thiết. Nó có sẵn cả tại chỗ và trên đám mây thông qua TIBCO Clarity Cloud Edition.
Một số nguyên tắc quản trị dữ liệu [9]
1) Toàn vẹn
Những người tham gia quản trị dữ liệu sẽ thực hiện toàn vẹn các giao dịch của họ.
2) Tính minh bạch
Quy trình quản trị dữ liệu và quản lý dữ liệu sẽ thể hiện tính minh bạch; cần phải rõ ràng cho tất cả những người tham gia và kiểm toán viên về cách thức và thời điểm các quyết định và kiểm soát liên quan đến dữ liệu được đưa vào các quy trình.
3) Khả năng kiểm toán
Các quyết định, quy trình và kiểm soát liên quan đến quản trị dữ liệu sẽ có thể kiểm toán được; chúng sẽ được kèm theo tài liệu để hỗ trợ các yêu cầu kiểm toán dựa trên hoạt động và tuân thủ.
4) Trách nhiệm
Quản trị dữ liệu sẽ xác định trách nhiệm cho các quyết định, quy trình và kiểm soát liên quan đến dữ liệu chức năng chéo.
5) Quản lý dữ liệu
Quản trị dữ liệu sẽ xác định trách nhiệm đối với các hoạt động quản lý là trách nhiệm của từng người đóng góp, cũng như trách nhiệm đối với các nhóm quản lý dữ liệu.
6) Kiểm tra và cân bằng
Quản trị dữ liệu sẽ xác định trách nhiệm theo cách giới thiệu kiểm tra và cân bằng giữa các nhóm kinh doanh và công nghệ cũng như giữa những người tạo/thu thập thông tin, những người quản lý nó, những người sử dụng nó và những người giới thiệu các tiêu chuẩn và yêu cầu tuân thủ.
7) Tiêu chuẩn hóa
Quản trị dữ liệu sẽ giới thiệu và hỗ trợ chuẩn hóa dữ liệu doanh nghiệp.
8) Quản lý thay đổi
Quản trị dữ liệu sẽ hỗ trợ các hoạt động quản lý thay đổi chủ động và phản ứng cho các giá trị dữ liệu tham chiếu và cấu trúc/sử dụng dữ liệu gốc và siêu dữ liệu.
Kết luận
Hiện nay, Việt Nam đã có một số quy định chung về quản trị các cơ sở dữ liệu quốc gia (CSDLQG) tại Điều 58 Luật Công nghệ thông tin ngày 29/6/2006; Điều 11 Nghị định số 64/2007/NĐ-CP ngày 10/4/2007 của Chính phủ về ứng dụng công nghệ thông tin trong hoạt động của cơ quan nhà nước; Điều 3 Quyết định số 714/QĐ-TTg ngày 22/5/2015 của Thủ tướng Chính phủ ban hành Danh mục CSDLQG cần ưu tiên triển khai tạo nền tảng phát triển chính phủ điện tử. Một số quy định về quản trị CSDLQG cụ thể như quy định tại Nghị định số 137/2015/NĐ-CP ngày 31/12/2015 của Chính phủ đối với CSDLQG về Dân cư; tại Nghị định số 78/2015/NĐ-CP ngày 14/9/2015 của Chính phủ đối với CSDLQG về đăng ký doanh nghiệp. Tuy nhiên, các chính sách về quản trị dữ liệu vẫn đang được nghiên cứu.
Một số thông tin tổng quan về quản trị dữ liệu như định nghĩa về quản trị dữ liệu, phân biệt quản trị dữ liệu và quản lý dữ liệu, lợi ích và tầm quan trọng của quản trị dữ liệu, một số giải pháp quản trị dữ liệu, một số nguyên tắc quản trị dữ liệu trên đây cung cấp kiến thức cơ bản để các cơ quan, đơn vị tham khảo, tiếp tục nghiên cứu, đề xuất các chính sách về quản trị dữ liệu trong cơ quan nhà nước bao gồm xây dựng các kế hoạch phát triển dữ liệu; quy định về chia sẻ dữ liệu; tổ chức, cung cấp, khai thác, chia sẻ và sử dụng các nguồn dữ liệu; phối hợp, kiểm tra, giám sát và giải quyết vấn đề; kiểm tra, đánh giá và duy trì dữ liệu; tích hợp dữ liệu, phân tích và tổng hợp dữ liệu; quản lý chất lượng dữ liệu.
Tài liệu tham khảo
[1] Rohinton P. Medhora, Data Governance in the Digital Age, 2018.
[2] https://studentprivacy.ed.gov (Truy cập ngày 24/5/2019)
[3] https://en.wikipedia.org/wiki/Data_governance (Truy cập ngày 24/5/2019)
[4] https://www.talend.com/resources/what-is-data-governance (Truy cập ngày 24/5/2019)
[5] https://www.smartsheet.com/data-governance (Truy cập ngày 24/5/2019)
[6] https://www.dataversity.net/what-is-data-governance (Truy cập ngày 24/5/2019)
[7] Arthur Glenn Maail, Understanding Barriers in the Implementation of the One Data Policy in Indonesia: Insights from Health Data Journey Modelling, 2018.
[8] https://www.datamation.com/big-data/top-10-data-governance-solutions.html (Truy cập ngày 24/5/2019)
[9] http://www.datagovernance.com/goals-and-principles-for-data-governance (Truy cập ngày 24/5/2019)
Phạm Văn Thịnh