SD3.5のLora学習エラー
Closed this issue · 7 comments
いつもお世話になっております。
SD3.5のLora学習で早速エラーが発生しましたのでご報告させていただきます。
import network module: None
Traceback (most recent call last):
File "D:\Lora_learning3\sd-scripts\sd3_train_network.py", line 426, in <module>
trainer.train(args)
File "D:\Lora_learning3\sd-scripts\train_network.py", line 387, in train
network_module = importlib.import_module(args.network_module)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "C:\Users\the_w\AppData\Local\Programs\Python\Python311\Lib\importlib\__init__.py", line 117, in import_module
if name.startswith('.'):
^^^^^^^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'startswith'
Traceback (most recent call last):
File "<frozen runpy>", line 198, in _run_module_as_main
File "<frozen runpy>", line 88, in _run_code
File "D:\Lora_learning3\sd-scripts\venv\Scripts\accelerate.exe\__main__.py", line 7, in <module>
File "D:\Lora_learning3\sd-scripts\venv\Lib\site-packages\accelerate\commands\accelerate_cli.py", line 48, in main
args.func(args)
File "D:\Lora_learning3\sd-scripts\venv\Lib\site-packages\accelerate\commands\launch.py", line 1106, in launch_command
simple_launcher(args)
File "D:\Lora_learning3\sd-scripts\venv\Lib\site-packages\accelerate\commands\launch.py", line 704, in simple_launcher
raise subprocess.CalledProcessError(returncode=process.returncode, cmd=cmd)
subprocess.CalledProcessError: Command '['D:\\Lora_learning3\\sd-scripts\\venv\\Scripts\\python.exe', 'sd3_train_network.py', '--bucket_reso_steps=64', '--caption_extension=.txt', '--enable_bucket', '--min_bucket_reso=256', '--max_bucket_reso=2048', '--learning_rate=3e-6', '--loss_type=l2', '--lr_scheduler=cosine', '--lr_scheduler_num_cycles=1', '--max_data_loader_n_workers=0', '--max_grad_norm=1', '--resolution=1024,1024', '--optimizer_type=AdamW', '--output_name=srdmk3_v05t2', '--output_dir=D:\\Lora_learning\\Data\\output', '--pretrained_model_name_or_path=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints\\sd3.5_large.safetensors', '--save_every_n_epochs=1', '--save_model_as=safetensors', '--save_precision=bf16', '--train_batch_size=1', '--train_data_dir=D:\\Lora_learning\\Data\\asset\\super_robot_diffusion', '--sdpa', '--gradient_checkpointing', '--max_train_epochs=3', '--network_dim', '64', '--network_alpha', '32.0', '--save_every_n_epochs', '1', '--save_every_n_steps', '250', '--bucket_no_upscale', '--clip_l=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\clip\\clip_l.safetensors', '--clip_g=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\clip\\clip_g.safetensors', '--t5xxl=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\clip\\t5xxl_fp16.safetensors', '--max_data_loader_n_workers=0', '--max_grad_norm=1', '--cache_text_encoder_outputs', '--cache_text_encoder_outputs_to_disk', '--cache_latents', '--cache_latents_to_disk', '--save_every_n_epochs=1']' returned non-zero exit status 1.
以下が学習時のコマンドとなります。
accelerate launch --mixed_precision="bf16" --num_cpu_threads_per_process=20 sd3_train_network.py --bucket_reso_steps=64 --caption_extension=".txt" --enable_bucket --min_bucket_reso=256 --max_bucket_reso=2048 --learning_rate="3e-6" --loss_type="l2" --lr_scheduler="cosine" --lr_scheduler_num_cycles="1" --max_data_loader_n_workers="0" --max_grad_norm="1" --resolution="1024,1024" --optimizer_type="AdamW" --output_name="srdmk3_v05t2" --output_dir="D:\Lora_learning\Data\output" --pretrained_model_name_or_path="D:\ComfyUI_windows_portable\ComfyUI\models\checkpoints\sd3.5_large.safetensors" --save_every_n_epochs="1" --save_model_as=safetensors --save_precision="bf16" --train_batch_size="1" --train_data_dir="D:\Lora_learning\Data\asset\super_robot_diffusion" --sdpa --gradient_checkpointing --max_train_epochs=3 --network_dim 64 --network_alpha 32.0 --save_every_n_epochs 1 --save_every_n_steps 250 --bucket_no_upscale --clip_l="D:\ComfyUI_windows_portable\ComfyUI\models\clip\clip_l.safetensors" --clip_g="D:\ComfyUI_windows_portable\ComfyUI\models\clip\clip_g.safetensors" --t5xxl="D:\ComfyUI_windows_portable\ComfyUI\models\clip\t5xxl_fp16.safetensors" --max_data_loader_n_workers="0" --max_grad_norm="1" --cache_text_encoder_outputs --cache_text_encoder_outputs_to_disk --cache_latents --cache_latents_to_disk --save_every_n_epochs=1
SD3/SD3.5のLoRA学習時には--network_module networks.lora_sd3
をご指定ください。
ありがとうございます!ちゃんと動作いたしました!
すみません・・。あれからちゃんと動作させてキャッシュも生成されてモデルも読み込まれましたが、いざ学習を始める際にエラーが発生しました。
Traceback (most recent call last):
File "D:\Lora_learning3\sd-scripts\sd3_train_network.py", line 426, in <module>
trainer.train(args)
File "D:\Lora_learning3\sd-scripts\train_network.py", line 1161, in train
encoded_text_encoder_conds = text_encoding_strategy.encode_tokens(
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "D:\Lora_learning3\sd-scripts\library\strategy_sd3.py", line 70, in encode_tokens
clip_l, clip_g, t5xxl = models
^^^^^^^^^^^^^^^^^^^^^
ValueError: not enough values to unpack (expected 3, got 2)
steps: 0%| | 0/80901 [00:01<?, ?it/s]
Traceback (most recent call last):
File "<frozen runpy>", line 198, in _run_module_as_main
File "<frozen runpy>", line 88, in _run_code
File "D:\Lora_learning3\sd-scripts\venv\Scripts\accelerate.exe\__main__.py", line 7, in <module>
File "D:\Lora_learning3\sd-scripts\venv\Lib\site-packages\accelerate\commands\accelerate_cli.py", line 48, in main
args.func(args)
File "D:\Lora_learning3\sd-scripts\venv\Lib\site-packages\accelerate\commands\launch.py", line 1106, in launch_command
simple_launcher(args)
File "D:\Lora_learning3\sd-scripts\venv\Lib\site-packages\accelerate\commands\launch.py", line 704, in simple_launcher
raise subprocess.CalledProcessError(returncode=process.returncode, cmd=cmd)
subprocess.CalledProcessError: Command '['D:\\Lora_learning3\\sd-scripts\\venv\\Scripts\\python.exe', 'sd3_train_network.py', '--network_module', 'networks.lora_sd3', '--bucket_reso_steps=64', '--caption_extension=.txt', '--enable_bucket', '--min_bucket_reso=256', '--max_bucket_reso=2048', '--learning_rate=3e-6', '--loss_type=l2', '--lr_scheduler=cosine', '--lr_scheduler_num_cycles=1', '--max_data_loader_n_workers=0', '--max_grad_norm=1', '--resolution=1024,1024', '--optimizer_type=AdamW', '--output_name=srdmk3_v05t2', '--output_dir=D:\\Lora_learning\\Data\\output', '--pretrained_model_name_or_path=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\checkpoints\\sd3.5_large.safetensors', '--save_every_n_epochs=1', '--save_model_as=safetensors', '--save_precision=bf16', '--train_batch_size=1', '--train_data_dir=D:\\Lora_learning\\Data\\asset\\super_robot_diffusion', '--sdpa', '--gradient_checkpointing', '--max_train_epochs=3', '--network_dim', '64', '--network_alpha', '32.0', '--save_every_n_epochs', '1', '--save_every_n_steps', '250', '--bucket_no_upscale', '--clip_l=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\clip\\clip_l.safetensors', '--clip_g=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\clip\\clip_g.safetensors', '--t5xxl=D:\\ComfyUI_windows_portable\\ComfyUI\\models\\clip\\t5xxl_fp16.safetensors', '--max_data_loader_n_workers=0', '--max_grad_norm=1', '--cache_text_encoder_outputs', '--cache_text_encoder_outputs_to_disk', '--cache_latents', '--cache_latents_to_disk', '--save_every_n_epochs=1']' returned non-zero exit status 1.
実行時のコマンド
accelerate launch --mixed_precision="bf16" --num_cpu_threads_per_process=20 sd3_train_network.py --network_module networks.lora_sd3 --bucket_reso_steps=64 --caption_extension=".txt" --enable_bucket --min_bucket_reso=256 --max_bucket_reso=2048 --learning_rate="3e-6" --loss_type="l2" --lr_scheduler="cosine" --lr_scheduler_num_cycles="1" --max_data_loader_n_workers="0" --max_grad_norm="1" --resolution="1024,1024" --optimizer_type="AdamW" --output_name="srdmk3_v05t2" --output_dir="D:\Lora_learning\Data\output" --pretrained_model_name_or_path="D:\ComfyUI_windows_portable\ComfyUI\models\checkpoints\sd3.5_large.safetensors" --save_every_n_epochs="1" --save_model_as=safetensors --save_precision="bf16" --train_batch_size="1" --train_data_dir="D:\Lora_learning\Data\asset\super_robot_diffusion" --sdpa --gradient_checkpointing --max_train_epochs=3 --network_dim 64 --network_alpha 32.0 --save_every_n_epochs 1 --save_every_n_steps 250 --bucket_no_upscale --clip_l="D:\ComfyUI_windows_portable\ComfyUI\models\clip\clip_l.safetensors" --clip_g="D:\ComfyUI_windows_portable\ComfyUI\models\clip\clip_g.safetensors" --t5xxl="D:\ComfyUI_windows_portable\ComfyUI\models\clip\t5xxl_fp16.safetensors" --max_data_loader_n_workers="0" --max_grad_norm="1" --cache_text_encoder_outputs --cache_text_encoder_outputs_to_disk --cache_latents --cache_latents_to_disk --save_every_n_epochs=1
I also have this error, may I ask you to solve it?
Text Encoder (CLIP-L/G)の学習を有効にした場合にエラーになっていました。修正いたしましたので、お試しください。もし引き続きエラーが出るようでしたら、再度ご返信ください。
An error occurred when training with Text Encoders (CLIP-L/G). We have fixed this, so please try it. If the error occurs, please reopen again.
ちゃんと動作を確認できました!ご対応ありがとうございます!
依然として具合があり正しく学習できていませんでしたが、最新版にて対応いたしました。お手数ですが最新版のスクリプトをご利用ください。