kỹ thuật dữ liệuphân tích dữ liệuquản trị dữ liệuphân tích
Làm sạch dữ liệu so với bảo toàn dữ liệu trong phân tích
Trong khi làm sạch dữ liệu chủ động loại bỏ các bản sao, sửa chữa các bất thường và định dạng lại các dữ liệu đầu vào lộn xộn để tăng độ chính xác của thuật toán học máy ở các bước tiếp theo, thì bảo tồn dữ liệu tập trung vào việc giữ nguyên lịch sử thô, không bị thay đổi để bảo vệ việc tuân thủ kiểm toán dài hạn và ngăn ngừa việc vô tình mất các trường hợp ngoại lệ hiếm gặp nhưng quan trọng.
Điểm nổi bật
Việc làm sạch dữ liệu giúp dữ liệu được sử dụng ngay lập tức, trong khi việc bảo quản giúp bảo vệ dữ liệu cho các ứng dụng không xác định trong tương lai.
Sai sót trong khâu vệ sinh có thể làm sai lệch số liệu, nhưng việc không bảo quản đúng cách có thể vi phạm hoàn toàn các quy định.
Quá trình bảo tồn lưu trữ dữ liệu một cách bất biến trong các kho dữ liệu có khả năng mở rộng, trong khi quá trình làm sạch dữ liệu bổ sung thông tin cho các hệ thống quan hệ được tối ưu hóa.
Các quy trình hiện đại kết hợp cả hai bằng cách lưu trữ dữ liệu thô trước khi chạy các tập lệnh làm sạch có thể phá hủy dữ liệu.
Làm sạch dữ liệu là gì?
Quá trình có hệ thống nhằm xác định, sửa chữa hoặc loại bỏ các bản ghi bị lỗi, không chính xác hoặc không liên quan khỏi tập dữ liệu.
Cải thiện trực tiếp hiệu suất mô hình bằng cách loại bỏ các lỗi cấu trúc và các mục trùng lặp trước khi quá trình huấn luyện bắt đầu.
Bao gồm các biện pháp can thiệp tích cực như điền các giá trị bị thiếu, chuẩn hóa chữ hoa chữ thường và loại bỏ các giá trị ngoại lệ.
Giảm chi phí lưu trữ và tính toán bằng cách lọc bỏ dữ liệu đo từ xa không cần thiết hoặc dư thừa trong nền.
Dựa vào các kịch bản xác định, biểu thức chính quy và các thuật toán loại bỏ trùng lặp chuyên biệt để chuẩn hóa dữ liệu đầu vào.
Có nguy cơ mất các tín hiệu hệ thống quan trọng nhưng không mong muốn nếu các quy tắc xác thực được cấu hình quá khắt khe.
Bảo quản dữ liệu là gì?
Việc bảo vệ và lưu trữ dữ liệu thô, chưa qua chỉnh sửa ở trạng thái ban đầu để tuân thủ các quy định lâu dài và phân tích lại.
Đảm bảo nguồn gốc dữ liệu đáng tin cậy bằng cách lưu giữ nhật ký kiểm toán bất biến từ chính thời điểm thu thập dữ liệu.
Sử dụng kiến trúc lưu trữ ghi một lần, đọc nhiều lần, các tầng đám mây lạnh và hàm băm mật mã để ngăn chặn việc giả mạo.
Cho phép các nhà khoa học dữ liệu tương lai xử lý lại các dữ liệu đầu vào thô giống hệt nhau khi các phương pháp phân tích mới xuất hiện.
Đảm bảo tuân thủ nghiêm ngặt các khuôn khổ pháp lý như GDPR, HIPAA và các tiêu chuẩn báo cáo tài chính.
Điều này đòi hỏi đầu tư đáng kể vào cơ sở hạ tầng lưu trữ do sự tích tụ của các tập dữ liệu không được nén và lộn xộn.
Bảng So Sánh
Tính năng
Làm sạch dữ liệu
Bảo quản dữ liệu
Mục tiêu chính
Tối ưu hóa tính hữu ích tức thời và độ chính xác của dữ liệu.
Đảm bảo tính chính xác lịch sử và khả năng tái tạo lâu dài.
Tình trạng dữ liệu
Đã được sửa đổi, tiêu chuẩn hóa và lọc.
Bản thô, chưa chỉnh sửa và có thể gây hỗn loạn.
Hành động cốt lõi
Sửa đổi hoặc xóa các mục có vấn đề
Khóa và lưu trữ hồ sơ một cách bất biến.
Kiến trúc lưu trữ
Kho dữ liệu và kho lưu trữ tính năng hiệu suất cao
Hồ dữ liệu có khả năng mở rộng và kho lưu trữ dữ liệu lạnh.
Người thụ hưởng chính
Công cụ phân tích kinh doanh và mô hình học máy
Các chuyên gia kiểm toán dữ liệu, nhà phân tích pháp y và các nhà nghiên cứu tương lai.
Rủi ro kỹ thuật chính
Việc vô tình xóa bỏ các dị thường trong thế giới thực.
Tích tụ rác kỹ thuật số đắt tiền và tuân thủ các quy định.
So sánh chi tiết
Định vị và thời gian quy trình làm việc
Việc bảo toàn dữ liệu diễn ra ngay tại điểm tiếp nhận ban đầu, thu thập thông tin trực tiếp từ nguồn trước khi bất kỳ quy trình xử lý nào can thiệp vào. Việc làm sạch dữ liệu diễn ra ở giai đoạn sau, chuyển đổi các tập tin thô đã lưu thành các tài sản được chọn lọc sẵn sàng cho các bảng điều khiển kinh doanh. Bảo toàn dữ liệu giúp ngăn ngừa mất dữ liệu, trong khi làm sạch dữ liệu giúp sắp xếp các "phòng" bên trong để phục vụ các hoạt động hàng ngày.
Xử lý các bất thường trong thế giới thực
Quy trình làm sạch thường xuyên đánh dấu các đỉnh nhọn bất thường hoặc các trường trống là lỗi, làm mịn chúng hoặc loại bỏ chúng để giữ cho quá trình hồi quy ổn định. Quá trình bảo tồn giữ lại chính xác những bản ghi bị lỗi đó, nhận ra rằng một kết nối bị gián đoạn hoặc một đỉnh nhọn bất thường của cảm biến có thể là chìa khóa để phát hiện ra lỗi phần cứng trong tương lai. Làm sạch tối ưu hóa các xu hướng mượt mà, trong khi bảo tồn coi trọng thực tế thô, không bị chỉnh sửa.
Tác động về cơ sở hạ tầng và chi phí
Các quy trình làm sạch dữ liệu đòi hỏi sức mạnh tính toán lớn để phân tích chuỗi ký tự, thực hiện các phép nối và chạy logic loại bỏ dữ liệu trùng lặp ngay lập tức. Việc bảo tồn dữ liệu bỏ qua các logic xử lý phức tạp, chuyển ngân sách sang các thiết lập lưu trữ đối tượng khổng lồ, chi phí thấp được thiết kế để lưu trữ hàng petabyte tệp tin vô thời hạn. Bạn trả tiền cho sức mạnh tính toán đang hoạt động khi làm sạch, nhưng bạn trả tiền cho dung lượng đĩa ổn định khi bảo tồn.
Tuân thủ quy định và an ninh
Các khuôn khổ pháp lý hiện đại yêu cầu các tổ chức phải chứng minh chính xác cách họ đi đến một kết luận phân tích cụ thể. Vì việc làm sạch dữ liệu làm thay đổi vĩnh viễn các giá trị hoặc xóa các hàng, nên chỉ riêng tập dữ liệu đã được làm sạch không thể đáp ứng được yêu cầu kiểm toán kỹ thuật số nghiêm ngặt. Việc bảo tồn cung cấp bằng chứng bằng văn bản chưa bị chỉnh sửa, cho phép các nhóm an ninh và các cơ quan quản lý tái tạo lại các phép tính từ đầu mà không có sự mơ hồ.
Ưu & Nhược điểm
Làm sạch dữ liệu
Ưu điểm
+Tăng tốc độ huấn luyện mô hình.
+Loại bỏ những thông tin gây nhiễu trên bảng điều khiển.
+Chuẩn hóa các định dạng văn bản không khớp
+Tiết kiệm bộ nhớ cho các ứng dụng phía sau.
Đã lưu
−Có thể phá hủy các dị thường hợp lệ
−Đưa sự thiên vị của con người vào các quy tắc.
−Yêu cầu bảo trì mã nguồn liên tục
−Không thể đảo ngược nếu thực hiện tại chỗ
Bảo quản dữ liệu
Ưu điểm
+Cung cấp thông tin nguồn gốc dữ liệu tuyệt đối.
+Cho phép phân tích lại toàn bộ lịch sử.
+Đáp ứng các cuộc kiểm toán nghiêm ngặt của chính phủ.
+Bảo vệ các cạnh nguyên bản
Đã lưu
−Làm tăng chi phí lưu trữ dài hạn.
−Khiến các tổ chức phải đối mặt với rủi ro tuân thủ.
−Để lại dữ liệu lộn xộn và không được định dạng.
−Yêu cầu hệ thống kiểm soát truy cập phức tạp
Những hiểu lầm phổ biến
Huyền thoại
Làm sạch dữ liệu và bảo tồn dữ liệu là hai lựa chọn loại trừ lẫn nhau trong một dự án.
Thực tế
Trên thực tế, chúng tạo thành một mối quan hệ hợp tác mạnh mẽ trong kiến trúc dữ liệu hiện đại. Các nhóm kỹ sư ưu tú sẽ bảo toàn dữ liệu thô đầu vào bên trong một tầng lưu trữ bất biến (immutable lake tier) trước, sau đó khởi tạo các quy trình làm sạch độc lập để tạo ra các bản sao đã được tinh chỉnh và đưa vào các kho dữ liệu để phân tích hàng ngày.
Huyền thoại
Việc lưu giữ mọi dữ liệu thô đảm bảo bạn tự động tuân thủ luật bảo mật thông tin.
Thực tế
Việc lưu trữ dữ liệu thô vô thời hạn có thể xung đột với các quy định về quyền riêng tư như quyền được lãng quên theo GDPR. Việc bảo quản đòi hỏi chiến lược theo dõi siêu dữ liệu và mã hóa tinh vi để các hồ sơ khách hàng cụ thể vẫn có thể được xóa hoặc ẩn danh mà không phá hủy toàn bộ kho lưu trữ.
Huyền thoại
Các quy trình làm sạch dữ liệu tự động luôn an toàn hơn so với sự can thiệp thủ công của con người.
Thực tế
Tự động hóa có thể ngay lập tức làm trầm trọng thêm các lỗi. Nếu một kịch bản tự động chứa một lỗi logic nhỏ, nó có thể âm thầm ghi đè lên hàng nghìn hàng dữ liệu hợp lệ trong toàn bộ cơ sở dữ liệu, cho thấy tầm quan trọng của việc giữ bản sao lưu dự phòng.
Huyền thoại
Sau khi dữ liệu được làm sạch kỹ lưỡng, bạn sẽ không bao giờ cần đến các tệp gốc nữa.
Thực tế
Các yêu cầu phân tích thay đổi liên tục. Nếu doanh nghiệp của bạn chuyển sang mô hình học máy mới xử lý các giá trị thiếu theo cách khác, dữ liệu đã được làm sạch cũ của bạn sẽ trở nên lỗi thời, buộc bạn phải lấy lại các tệp dữ liệu thô đã lưu trữ và xây dựng lại quy trình xử lý dữ liệu.
Các câu hỏi thường gặp
Làm thế nào các kiến trúc nhà ven hồ hiện đại cân bằng giữa việc làm sạch dữ liệu và bảo tồn dữ liệu cùng một lúc?
Các hệ thống hiện đại sử dụng các lớp lưu trữ giao dịch như Delta Lake hoặc Apache Iceberg để giải quyết bài toán này. Chúng giữ nguyên dữ liệu gốc, chưa chỉnh sửa, đồng thời duy trì lịch sử phiên bản rõ ràng của tất cả các thao tác làm sạch. Khi một nhà phân tích chạy truy vấn, hệ thống sẽ đọc trạng thái đã được làm sạch mới nhất, nhưng các nhà phát triển có thể sử dụng các tính năng "du hành thời gian" để truy vấn ngay lập tức dữ liệu thô chính xác như trạng thái của nó cách đây vài tháng.
Sự khác biệt về chi phí tài chính giữa việc làm sạch dữ liệu sớm so với việc giữ nguyên dữ liệu thô là bao nhiêu?
Việc làm sạch dữ liệu sớm giúp giảm thiểu chi phí lưu trữ trên các cơ sở dữ liệu quan hệ tốc độ cao và đắt tiền vì bạn lọc bỏ dữ liệu rác ngay lập tức. Tuy nhiên, nếu thuật toán làm sạch của bạn sai, chi phí tài chính do mất dữ liệu vĩnh viễn có thể gây ra hậu quả thảm khốc đối với hoạt động kinh doanh. Việc lưu giữ dữ liệu thô tốn kém hơn về dung lượng lưu trữ ban đầu, nhưng nó sử dụng các dịch vụ lưu trữ đối tượng giá rẻ như AWS S3 Glacier, biến nó thành một chính sách bảo hiểm rất hiệu quả về lâu dài.
Việc lưu trữ dữ liệu có tiềm ẩn rủi ro bảo mật nào mà việc làm sạch dữ liệu giúp loại bỏ không?
Đúng vậy, việc lưu giữ dữ liệu chưa chỉnh sửa tiềm ẩn những thách thức bảo mật đáng kể. Nhật ký thô thường chứa các chuỗi văn bản nhạy cảm, khóa API chưa được mã hóa hoặc thông tin nhận dạng cá nhân bị thu thập một cách vô tình. Mặc dù việc làm sạch loại bỏ những mối nguy hiểm này để giữ an toàn cho các môi trường tiếp theo, nhưng các kho lưu trữ được bảo quản phải được bảo vệ bằng mã hóa nghiêm ngặt, ghi nhật ký truy cập chặt chẽ và cách ly mạng nghiêm ngặt để ngăn chặn các vi phạm bảo mật quy mô lớn.
Tại bước cụ thể nào trong quy trình ELT, việc làm sạch dữ liệu sẽ thay thế việc bảo tồn dữ liệu?
Trong quy trình Extract-Load-Transform (Trích xuất-Tải-Chuyển đổi), các giai đoạn trích xuất và tải thuộc hoàn toàn về bảo toàn dữ liệu. Quy trình này trích xuất dữ liệu thô từ các hệ thống sản xuất và tải trực tiếp vào vùng lưu trữ mà không chỉnh sửa bất kỳ byte nào. Việc làm sạch diễn ra trong giai đoạn chuyển đổi, nơi các khung nhìn SQL hoặc mô hình dbt riêng biệt định hình, làm sạch và xác thực dữ liệu thô để người dùng cuối có thể sử dụng.
Liệu việc làm sạch dữ liệu quá mức có thể dẫn đến hiện tượng quá khớp (overfitting) trong các mô hình học máy?
Việc làm sạch dữ liệu quá mức thường loại bỏ sự biến đổi tự nhiên, các giá trị ngoại lệ và những bất thường phức tạp mà các mô hình cần gặp phải trong quá trình huấn luyện. Nếu bạn cung cấp cho thuật toán dữ liệu đã được xử lý hoàn hảo, nó sẽ gặp khó khăn trong việc khái quát hóa khi được triển khai trong thế giới thực, nơi các dữ liệu đầu vào hỗn loạn và khó dự đoán. Việc bảo tồn tính chất tự nhiên của dữ liệu giúp các kỹ sư xây dựng các bộ dữ liệu kiểm thử và xác thực mạnh mẽ.
Các chính sách lưu giữ dữ liệu có mối liên hệ như thế nào với các mục tiêu bảo tồn dữ liệu dài hạn?
Chính sách lưu giữ dữ liệu quy định thời hạn cụ thể cho dữ liệu được lưu trữ nhằm hạn chế trách nhiệm pháp lý của doanh nghiệp và giảm chi phí lưu trữ. Một chiến lược phù hợp sẽ xác định chính xác thời gian cần thiết để lưu giữ các tệp dữ liệu gốc nhằm đáp ứng nhu cầu phân tích lịch sử hoặc các quy định pháp luật, ví dụ như bảy năm đối với hồ sơ tài chính. Sau khi hết thời hạn đó, chính sách lưu giữ sẽ kích hoạt quy trình xóa hoặc ẩn danh tự động.
Tại sao việc bảo quản dữ liệu được coi là yêu cầu cốt lõi đối với khoa học dữ liệu có thể tái tạo?
Khả năng tái tạo thực sự có nghĩa là một nhà nghiên cứu độc lập có thể chạy chính xác mã của bạn với chính xác dữ liệu đầu vào của bạn và thu được kết quả giống hệt nhau. Bởi vì các kịch bản làm sạch dữ liệu phát triển theo thời gian, việc chỉ chia sẻ tập dữ liệu đã được làm sạch là không đủ để đảm bảo khả năng tái tạo lâu dài. Việc cung cấp quyền truy cập vào dữ liệu thô gốc, được khóa cho phép các đồng nghiệp xác minh rằng các kịch bản làm sạch của bạn không vô tình gây ra sai lệch hoặc làm sai lệch kết luận cuối cùng.
Điều gì sẽ xảy ra với việc theo dõi nguồn gốc dữ liệu khi bạn làm sạch dữ liệu mà không lưu giữ dữ liệu gốc?
Nguồn gốc dữ liệu của bạn bị gián đoạn hoàn toàn. Nếu không có các tệp nguồn gốc, dấu vết nguồn gốc sẽ dừng lại ở tập lệnh làm sạch đầu tiên, khiến việc chứng minh nguồn gốc dữ liệu hoặc xác minh tính xác thực của nó trở nên bất khả thi. Việc bảo toàn trạng thái thô cung cấp một điểm neo vững chắc cho các công cụ quản trị để ánh xạ mọi phép biến đổi, tách cột và tính toán trở lại nguồn gốc thực sự của chúng.
Phán quyết
Hãy chọn làm sạch dữ liệu khi ưu tiên trước mắt của bạn là huấn luyện mô hình máy học, xây dựng bảng điều khiển quản lý rõ ràng hoặc loại bỏ các lỗi định dạng rõ ràng gây ảnh hưởng đến mã sản xuất. Hãy tập trung mạnh vào bảo tồn dữ liệu khi xây dựng cơ sở hạ tầng dài hạn, đáp ứng các yêu cầu pháp lý nghiêm ngặt hoặc thiết kế quy trình điều tra chuyên sâu, nơi việc mất đi dù chỉ một pixel thô hoặc dòng nhật ký cũng là không thể chấp nhận được.