Giới thiệu về Stable Diffusion
Stable Diffusion là một mô hình máy học nguồn mở với khả năng sinh ra hình ảnh từ văn bản, chỉnh sửa hình ảnh dựa trên gợi ý văn bản (prompt) hoặc tạo nên hình ảnh độ phân giải cao từ hình ảnh thấp chi tiết. Được đào tạo trên hàng tỷ hình ảnh, mô hình này đã được Stability AI phát triển và công bố vào ngày 22 tháng 8 năm 2022.
Stable Diffusion không có giao diện người dùng tiện lợi như một số trình tạo hình ảnh AI khác, nhưng đặc biệt ở chỗ là dữ liệu mô hình và mã nguồn của nó đã được công bố. Hơn nữa, mô hình có thể chạy trên hầu hết các phần cứng, khác với các mô hình độc quyền khác như DALL-E, Midjourney,… chỉ có thể truy cập qua dịch vụ đám mây.
Hiện tại, Stable Diffusion có hai phiên bản phát hành chính là SD v1 và SD v2 với sự khác biệt chủ yếu về bộ dữ liệu được sử dụng để đào tạo mô hình và bộ mã hóa văn bản. Stable Diffusion đang là một ứng viên sáng giá trong lĩnh vực tạo ảnh bằng công nghệ AI với khả năng tạo ra các hình ảnh tùy chỉnh chân thực.
Xem thêm: Stable Diffusion là gì? SD sẽ ảnh hưởng đến nghề Thiết kế như thế nào?
Để có thể sử dụng Stable Diffusion, hiện tại có các cách sau:
Cài đặt Stable Diffusion trên Windows
Cài đặt Stable Diffusion trên MacOS
Cài đặt Stable Diffusion trên nền tảng Colab Google
Sử dụng trên các trang web hỗ trợ trực tuyến (Free hoặc có thu phí)
Cài đặt Stable Diffusion trên máy tính PC – Windows hoặc MacOS:
Để vận hành Stable Diffusion một cách ổn định, máy tính của bạn cần đạt được những tiêu chuẩn kỹ thuật sau:
Sở hữu card đồ họa rời Nvidia (GPU) có ít nhất 4GB VRAM.
Cung cấp không gian lưu trữ trống tối thiểu là 10GB.
Hệ điều hành Windows 10 hoặc 11 đang hoạt động. Lưu ý, Stable Diffusion cũng tương thích với Linux và macOS.
Stable Diffusion không thích hợp để vận hành trên điện thoại di động hay laptop cấu hình thấp. Nếu máy tính của bạn không đạt được những yêu cầu trên, không sao cả, vẫn có những giải pháp thay thế cho bạn:
Sử dụng phiên bản trực tuyến của Stable Diffusion.
Truy cập thông qua dịch vụ Google Colab.
Hoặc chọn cài đặt phiên bản tự động của Stable Diffusion.
Thực hiện theo các bước hướng dẫn này, bạn sẽ dễ dàng cài đặt và vận hành Stable Diffusion một cách suôn sẻ nhất.
Sử dụng Stable Diffusion trực tuyến
Nếu bạn muốn nhanh chóng trải nghiệm Stable Diffusion mà không cần quá nhiều kiến thức công nghệ, có thể thử sử dụng các công cụ Stable Diffusion trực tuyến. Có hai trang web demo bạn có thể thử: huggingface.co và stablediffusionweb.com.
Có hai trường văn bản bạn cần chú ý khi sử dụng, đó là câu nhắc (prompt) và lời nhắc phủ định (negative prompt). Câu nhắc sẽ yêu cầu công cụ AI tạo ảnh theo mô tả của bạn, trong khi lời nhắc phủ định sẽ yêu cầu thuật toán loại bỏ các yếu tố không mong muốn khỏi hình ảnh đầu ra.
Bạn cũng có thể điều chỉnh nâng cao, như số hình, số bước, tốc độ và độ chính xác. Tuy nhiên, nếu bạn không quen với các thông số này, bạn có thể để mặc định và chỉ cần nhập câu nhắc và lời nhắc phủ định.
Yêu cầu kỹ thuật cho việc cài đặt Stable Diffusion
Để cài đặt và vận hành ứng dụng Stable Diffusion một cách trơn tru, máy tính của bạn cần phải đáp ứng những tiêu chuẩn sau:
Chạy trên hệ điều hành Windows 8, 10 hoặc 11.
Được trang bị GPU với tối thiểu 6 GB VRAM, bao gồm phần lớn các dòng GPU NVIDIA hiện đại.
Cung cấp khoảng 10GB dung lượng lưu trữ trên ổ cứng hoặc ổ thể rắn (SSD).
Đã cài đặt Miniconda3 và Git.
Tải và giải nén tệp Stable Diffusion từ GitHub.
Vui lòng lưu ý rằng, Stable Diffusion cũng có thể hoạt động mạnh mẽ trên hệ điều hành macOS và Linux.
Hướng dẫn cài đặt và sử dụng Stable Diffusion trên máy tính cá nhân MacOS
Chúng ta có hai phương án để vận hành Stable Diffusion, một trên macOS và một trên Windows. Với macOS, mọi việc trở nên vô cùng đơn giản nhờ vào một ứng dụng có tên là DiffusionBee. Cách sử dụng nó cũng không quá phức tạp, chỉ cần truy cập vào trang web của nhà phát triển, tải và cài đặt ứng dụng vào máy Mac của bạn.
Tuy nhiên, có một hạn chế là DiffusionBee chỉ tương thích với những máy Mac sử dụng chip Apple Silicon, không hỗ trợ các máy Mac chạy chip Intel. Đồng thời, máy Mac của bạn cũng cần phải được cập nhật lên phiên bản macOS Monterey trở lên để có thể cài đặt được DiffusionBee.
Nếu máy Mac của bạn đáp ứng được cả hai yêu cầu trên, bạn chỉ cần truy cập vào trang chủ của DiffusionBee và tải về phiên bản cho macOS từ địa chỉ: https://diffusionbee.com/. Sau khi cài đặt, bạn sẽ cần khởi động phần mềm, nơi sẽ tự động tải về những nguyên liệu cần thiết để bạn tạo hình ảnh với thuật toán AI, bao gồm cả model hay còn gọi là checkpoint.
Trong quá trình sử dụng, bạn cần chú ý đến những tùy chọn nâng cao (Advanced Options) trong phần mềm. Hiểu rõ về các thông số này sẽ giúp bạn tạo ra những bức hình phù hợp hơn với ý tưởng của mình:
Image Size: Kích thước hình ảnh được tạo ra. DiffusionBee không hỗ trợ các thuật toán AI dùng để nâng độ phân giải hình ảnh, và model Stable Diffusion cơ bản được huấn luyện để tạo ra hình ảnh với chất lượng 512×512 pixel là tốt nhất.
Steps: Số lượng bước mà model dùng để nội suy hình ảnh. Nếu số lượng bước càng cao, hình ảnh sẽ càng chi tiết và chính xác, nhưng sẽ tốn thêm thời gian. Nếu số lượng bước thấp, việc tạo hình ảnh sẽ nhanh chóng, nhưng chất lượng hình ảnh sẽ giảm đi.
Seed: Tham số mà thuật toán AI sử dụng để tạo hình ảnh. Đây là một thông số quan trọng. Nếu bạn để seed là một con số cố định, thuật toán sẽ luôn tạo ra hình ảnh giống hệt nhau mỗi lần bạn chạy lại. Nếu bạn để seed là “random”, thuật toán sẽ tạo ra một hình ảnh ngẫu nhiên mỗi lần bạn chạy lại.
Temperature: Một tham số khác cũng quan trọng. Giá trị temperature càng cao, thuật toán sẽ tạo ra những hình ảnh càng độc đáo và khác biệt, nhưng cũng có thể trở nên ít dự đoán được hơn. Nếu giá trị temperature thấp, hình ảnh sẽ trở nên chính quy và ít sự thay đổi hơn.
Class: Class ở đây đề cập đến những lớp mà model được huấn luyện để nhận biết. Ví dụ, nếu bạn chọn “apple”, model sẽ tạo ra một hình ảnh tương ứng với khái niệm “apple” mà nó đã học được trong quá trình huấn luyện. Lưu ý rằng model chỉ hiểu được những class mà nó đã được huấn luyện, không thể tạo ra hình ảnh cho những class mà nó chưa biết.
Sau khi đã cấu hình xong, bạn chỉ cần nhấn “Generate” và chờ đợi. Thời gian cần thiết sẽ phụ thuộc vào cấu hình của bạn, nhưng nói chung, việc tạo ra một hình ảnh không quá mất thời gian. Sau khi hoàn tất, bạn có thể lưu hình ảnh lại hoặc tạo một hình ảnh mới.
Các ứng dụng của Stable Diffusion rất đa dạng, từ việc tạo ra các hình ảnh nghệ thuật, đến việc sử dụng trong lĩnh vực giáo dục hay kinh doanh. Tuy nhiên, cũng cần nhớ rằng thuật toán AI không thể thay thế hoàn toàn sự sáng tạo của con người. Hãy sử dụng nó như một công cụ để mở rộng khả năng sáng tạo của bạn.
Xem thêm: Stable Diffusion là gì? SD sẽ ảnh hưởng đến nghề Thiết kế như thế nào?
Cài đặt WebUI của Stable Diffusion do AUTOMATIC1111 tạo ra trên hệ điều hành Windows
Đối với người dùng macOS, quá trình cài đặt tương đối thuận tiện, tuy nhiên, các tùy chọn điều khiển thuật toán trong quá trình tạo ra hình ảnh AI có hạn. Trái lại, đối với người dùng Windows, quá trình cài đặt và các yêu cầu cấu hình phức tạp hơn một chút, nhưng đổi lại là nhiều tùy chọn điều khiển hơn trong quá trình sử dụng Stable Diffusion để tạo hình ảnh AI.
Đầu tiên, bạn cần chú ý đến yêu cầu cấu hình để cài đặt Stable Diffusion WebUI:
Hệ điều hành: Windows 10 hoặc mới hơn.
Card đồ họa: Yêu cầu card đồ họa từ Nvidia, bởi Stable Diffusion WebUI chỉ hỗ trợ xử lý dựa trên tập lệnh và nhân CUDA trên GPU của Nvidia. Card đồ họa cần có ít nhất 4GB VRAM. Tất nhiên, càng nhiều VRAM, càng thuận lợi trong quá trình tạo hình ảnh.
Tuy nhiên, nếu bạn sở hữu card đồ họa Radeon từ AMD, có những giải pháp khác như OnnxDiffuserUI hoặc cách tùy chỉnh AUTOMATIC1111 để hỗ trợ card AMD. Chi tiết về việc này sẽ được trình bày trong một bài viết khác.
Nếu bạn đáp ứng được hai yêu cầu trên, hãy tiến hành cài đặt Stable Diffusion WebUI theo các bước sau:
Tải và cài đặt Python phiên bản mới nhất cho Windows từ trang chủ Python: https://www.python.org/downloads/release/python-31010/. Lựa chọn Windows Installer (64-bit), tải về và cài đặt. Đừng quên chọn “Add Python 3.10 to PATH” khi cài đặt.
Tải và cài đặt Git for Windows tại: https://git-scm.com/download/win. Bạn sẽ cần Git để cài đặt và cập nhật AUTOMATIC1111.
Sau khi cài Python và Git, truy cập vào: https://github.com/AUTOMATIC1111/stable-diffusion-webui, nhấp vào “Code”, sau đó chọn “Download ZIP” để tải về WebUI.
Giải nén file ZIP vừa tải từ GitHub, để nó vào một thư mục dễ tìm, ví dụ: Desktop.
Tải Checkpoint. Khi mới bắt đầu, bạn nên chọn checkpoint mặc định của Stable Diffusion. Phiên bản SD 2.1 có thể tải về từ: https://huggingface.co/stabilityai/stable-diffusion-2-1-base.
Sau khi tải xong file v2-1_512-ema-pruned.ckpt, mở thư mục “stable-diffusion-webui” vừa giải nén, tiếp tục mở thư mục models/Stable-diffusion và đặt file checkpoint vừa tải vào đây.
Trở lại thư mục “stable-diffusion-webui”, tìm và mở file webui.bat. Cửa sổ cmd sẽ hiện lên và tiến hành tải các thành phần cần thiết cho WebUI, thời gian tải sẽ tùy thuộc vào tốc độ internet của bạn. Chỉ cần chờ đến khi thấy dòng “Running on local IRL: http://127.0.0.1:7860” xuất hiện là hoàn tất.
Mở trình duyệt web, gõ “http://127.0.0.1:7860” vào thanh địa chỉ. Giao diện WebUI sẽ xuất hiện và bạn có thể bắt đầu tạo hình ảnh từ thuật toán AI
Hướng dẫn sử dụng cơ bản và nguyên tắc tạo hình ảnh thông qua mô hình AI Stable Diffusion
Dù giao diện WebUI của Stable Diffusion có vẻ phức tạp hơn so với DiffusionBee trên macOS, bạn sẽ nhận thấy rằng công cụ này cung cấp nhiều khả năng tùy chỉnh và mạnh mẽ hơn sau khi nắm vững các chi tiết và tính năng.
StableDiffusion checkpoint: Đây là mô hình đã được huấn luyện giúp bạn tạo hình ảnh từ từ khóa.
Prompt: Ô này cho phép bạn nhập từ khóa để thuật toán tạo hình ảnh.
Negative prompt: Đây là những từ khóa có thể tạo ra các chi tiết hình ảnh không mong muốn, thuật toán sẽ loại bỏ chúng trong quá trình xử lý hình ảnh.
Sampling method: Các phương pháp lấy mẫu khác nhau phù hợp với các loại hình ảnh khác nhau. Việc chọn sampler phụ thuộc vào quá trình thử nghiệm của bạn.
Restore faces: Sử dụng thuật toán CodeFormer để tinh chỉnh chi tiết khuôn mặt cho phù hợp.
Tiling: Tạo ra những hình ảnh lặp đi lặp lại, rất hữu ích khi tạo ra các mẫu hoa văn mới.
Hires. fix: Sử dụng các thuật toán khác để tiếp tục tăng độ phân giải hình ảnh.
Upscaler: Chọn thuật toán để tăng độ phân giải hình ảnh.
Upscale by: Tỉ lệ tăng kích thước hình ảnh. Hãy cẩn thận không để quá cao, bởi vì có thể gây ra lỗi do hết VRAM.
Hires steps: Số lượng bước thuật toán cần thực hiện để tăng độ phân giải và chi tiết hình ảnh.
Denoising strength: Mức độ can thiệp của thuật toán tăng cấp hình ảnh, chèn lên thuật toán tạo ra hình ảnh trước đó. Số càng thấp thì can thiệp càng ít.
CFG Scale: Tương tự như DiffusionBee, số càng nhỏ thì hình ảnh càng sáng tạo.
Seed: Đây là tham số thuật toán sử dụng để xử lý hình ảnh.
Sau khi hiểu rõ về các tính năng, bạn có thể bắt đầu tìm hiểu và nhập từ khóa để thuật toán bắt đầu công việc.
Ví dụ, bạn có thể nhập các từ khóa sau: “((darth vader riding a vespa scooter on the street of raining Tokyo)), reflection on the ground, neon billboards, cyberpunk, Tokyo night, rembrandt light, fantasy, dramatic sky, cinematic, fisheye lens, f1.8, hyper realistic, ultra detail, photorealistic, high contrast”. Sau đó, thiết lập các tham số nội suy tương ứng.
Những mô hình khác nhau dựa trên Stable Diffusion có thế mạnh và nhược điểm riêng. Để tạo ra hình ảnh đẹp nhất, bạn cần phải trải qua quá trình thử và lỗi để tìm ra lựa chọn tối ưu..
Xem thêm: Hướng dẫn cài đặt Stable Diffusion trên nền tảng Colab Google
Trường hợp các bạn không cài đặt được, và muốn cập nhật kiến thức từ cơ bản đến chuyên sâu và ứng dụng AI trong lĩnh vực thiết kế (Quảng cáo, Đồ hoạ, Kiến trúc, Nội thất), bạn có thể kham khảo KHOÁ HỌC ỨNG DỤNG AI (TRÍ TUỆ THÔNG MINH NHÂN TẠO) tại đây. Thông tin liên hệ:
Trụ sở chính:32/19 Nghĩa Hòa, Phường 06, Q. Tân Bình, TPHCM (Nhà Thờ Nghĩa Hòa – Khu Bắc Hải)
Cơ sở 2: 418 Nguyễn Kiệm, P. 3, Q. Phú Nhuận, TPHCM (Ngã 4 Phú Nhuận)
Cơ sở 3: 98 Sương Nguyệt Ánh, Phường Bến Thành, Q. 1 (Đối diện nhà C.Sĩ Ngọc Sơn)
Cơ sở 4:L30-09, Đường số 43, Khu Dân cư Stella Megacity, P. Bình Thủy, Q. Bình Thủy, Tp. Cần Thơ
Hotline: 0988 363 967