ảnh anime

Diffusion Models

Diffusion models là một loại thuật toán generative AI học cách tạo ra các mẫu dữ liệu mới bằng cách đảo ngược quá trình thêm nhiễu dần dần. Khác với các mô hình phân loại (discriminative models) truyền thống được sử dụng cho các tác vụ như object detection hoặc phân loại, vốn dự đoán nhãn từ dữ liệu, diffusion models tập trung vào việc tạo ra nội dung có độ trung thực cao—đáng chú ý nhất là hình ảnh, âm thanh và video—mô phỏng chặt chẽ các đặc tính thống kê của dữ liệu trong thế giới thực. Chúng đã nhanh chóng trở thành giải pháp hiện đại (state-of-the-art) cho việc tổng hợp hình ảnh độ phân giải cao, vượt qua các mô hình dẫn đầu trước đây như Generative Adversarial Networks (GANs) nhờ sự ổn định trong quá trình huấn luyện và khả năng tạo ra các đầu ra đa dạng.

Cách thức hoạt động của Diffusion Models

Cơ chế cốt lõi của một diffusion model dựa trên nhiệt động lực học không cân bằng. Quá trình huấn luyện bao gồm hai giai đoạn riêng biệt: forward process (diffusion - khuếch tán) và reverse process (denoising - khử nhiễu).

Forward Process: Giai đoạn này phá hủy cấu trúc của hình ảnh huấn luyện một cách có hệ thống bằng cách thêm một lượng nhỏ Gaussian noise qua một loạt các bước thời gian. Khi quá trình tiếp tục, dữ liệu phức tạp (như ảnh một con mèo) dần dần biến đổi thành nhiễu ngẫu nhiên thuần túy, không có cấu trúc.
Reverse Process: Mục tiêu của neural network là học cách đảo ngược sự hư hỏng này. Bắt đầu từ nhiễu ngẫu nhiên, mô hình dự đoán phần nhiễu đã được thêm vào ở mỗi bước và loại bỏ nó. Bằng cách lặp đi lặp lại việc loại bỏ nhiễu, mô hình "khử nhiễu" tín hiệu ngẫu nhiên cho đến khi một hình ảnh rõ nét, chất lượng cao xuất hiện.

Sự tinh chỉnh lặp đi lặp lại này cho phép kiểm soát vượt trội đối với các chi tiết nhỏ và kết cấu, đây là một lợi thế đáng kể so với các phương pháp tạo ảnh đơn bước.

Các ứng dụng thực tế

Diffusion models đã vượt ra ngoài phạm vi nghiên cứu học thuật để trở thành các công cụ thực tế, cấp độ sản xuất trong nhiều ngành công nghiệp khác nhau.

Synthetic Data Generation: Một trong những ứng dụng giá trị nhất đối với các kỹ sư thị giác máy tính là tạo ra synthetic data để tăng cường các bộ dữ liệu huấn luyện. Nếu một bộ dữ liệu thiếu sự đa dạng—ví dụ như thiếu hình ảnh ô tô trong điều kiện tuyết rơi—diffusion model có thể tạo ra các biến thể thực tế. Điều này giúp cải thiện độ mạnh mẽ của các mô hình thị giác như YOLO26 khi được triển khai trong các môi trường không thể dự đoán trước.
Image Inpainting and Editing: Diffusion models cung cấp sức mạnh cho các công cụ chỉnh sửa nâng cao cho phép người dùng sửa đổi các vùng cụ thể của hình ảnh. Kỹ thuật này, được gọi là inpainting, có thể loại bỏ các đối tượng không mong muốn hoặc lấp đầy các phần còn thiếu của một bức ảnh dựa trên ngữ cảnh xung quanh. Các kiến trúc sư và nhà thiết kế sử dụng kỹ thuật này để tạo mẫu nhanh, hình dung các thay đổi đối với sản phẩm hoặc môi trường mà không cần kết xuất 3D thủ công.

Phân biệt các thuật ngữ chính

Việc phân biệt diffusion models với các kiến trúc generative khác là rất hữu ích:

Diffusion Models so với GANs: Mặc dù GANs sử dụng hai mạng cạnh tranh (một generator và một discriminator) và nổi tiếng với tốc độ lấy mẫu nhanh, chúng thường gặp phải tình trạng "mode collapse", nơi mô hình tạo ra các kết quả đầu ra hạn chế. Diffusion models thường ổn định hơn trong quá trình huấn luyện và bao phủ phân phối của dữ liệu toàn diện hơn, mặc dù chúng có thể chậm hơn tại thời điểm suy luận (inference time).
Diffusion Models so với VAEs: Variational Autoencoders (VAEs) nén dữ liệu vào một không gian tiềm ẩn (latent space) và sau đó tái tạo lại nó. Mặc dù VAEs nhanh, nhưng hình ảnh do chúng tạo ra đôi khi có vẻ mờ so với các chi tiết sắc nét được tạo ra bởi các quá trình diffusion.

Triển khai thực tế

Mặc dù việc huấn luyện một diffusion model từ đầu đòi hỏi tài nguyên tính toán đáng kể, các kỹ sư có thể tận dụng các mô hình đã được huấn luyện sẵn hoặc tích hợp chúng vào các quy trình làm việc cùng với các bộ phát hiện hiệu quả. Ví dụ, bạn có thể sử dụng một diffusion model để tạo các biến thể nền cho một bộ dữ liệu và sau đó sử dụng Ultralytics Platform để gắn nhãn và huấn luyện một mô hình phát hiện trên dữ liệu nâng cao đó.

Dưới đây là một ví dụ khái niệm sử dụng torch để mô phỏng một bước diffusion xuôi đơn giản (thêm nhiễu), vốn là nền tảng của việc huấn luyện các hệ thống này.

Hướng phát triển tương lai

Lĩnh vực này đang phát triển nhanh chóng theo hướng các mô hình latent diffusion (LDMs), hoạt động trong không gian tiềm ẩn nén thay vì không gian pixel để giảm chi phí tính toán. Hiệu quả này giúp việc chạy các generative models mạnh mẽ trên phần cứng phổ thông trở nên khả thi. Khi nghiên cứu tiếp tục, chúng tôi kỳ vọng sẽ có sự tích hợp chặt chẽ hơn giữa các đầu vào generative và các tác vụ discriminative, chẳng hạn như sử dụng các kịch bản do diffusion tạo ra để xác thực sự an toàn của autonomous vehicles hoặc cải thiện medical image analysis bằng cách mô phỏng các bệnh lý hiếm gặp.

(*) Bản quyền bài viết thuộc về SachHay24H.com. Khi chia sẻ, cần phải dẫn link, trích dẫn nguồn đầy đủ về SachHay24h.Com. Mọi hành vi sao chép hoặc trích nguồn, chia sẻ bài viết không đầy đủ đều không được chấp nhận và phải gỡ bỏ.
Go HomePage: Sách Hay 24H hoặc click: Sách hay nhất mọi thời đại, Mua sách online, Bạn đắt giá bao nhiêu, Truyện cổ tích Việt Nam, Mùa xuân nho nhỏ, Tràng giang, Hịch tướng sĩ