Training is not working

Question

Training is not working

Opened this issue 2 years ago · 1 comments

#error1
(clrnet) root@zd3edf5:/CLRNet# CUDA_VISIBLE_DEVICES=2 python main.py configs/clrnet/clr_resnet18_culane_custom.py -
-gpus 2
2023-02-07 10:28:46,080 - clrnet.utils.recorder - INFO - Config:
net = dict(type='Detector', )

backbone = dict(
type='ResNetWrapper',
resnet='resnet18',
pretrained=True,
replace_stride_with_dilation=[False, False, False],
out_conv=False,
)

num_points = 72
max_lanes = 4
sample_y = range(589, 230, -20)

heads = dict(type='CLRHead',
num_priors=192,
refine_layers=3,
fc_hidden_dim=64,
sample_points=36)

iou_loss_weight = 2.
cls_loss_weight = 2.
xyt_loss_weight = 0.2
seg_loss_weight = 1.0

work_dirs = "work_dirs/custom"

neck = dict(type='FPN',
in_channels=[128, 256, 512],
out_channels=64,
num_outs=3,
attention=False)

test_parameters = dict(conf_threshold=0.4, nms_thres=50, nms_topk=max_lanes)

epochs = 300
batch_size = 24

optimizer = dict(type='AdamW', lr=0.6e-3) # 3e-4 for batchsize 8
total_iter = (88880 // batch_size) * epochs
scheduler = dict(type='CosineAnnealingLR', T_max=total_iter)

eval_ep = 1
save_ep = 10

img_norm = dict(mean=[103.939, 116.779, 123.68], std=[1., 1., 1.])
ori_img_w = 1640
ori_img_h = 590
img_w = 800
img_h = 320
cut_height = 270

train_process = [
dict(
type='GenerateLaneLine',
transforms=[
dict(name='Resize',
parameters=dict(size=dict(height=img_h, width=img_w)),
p=1.0),
dict(name='HorizontalFlip', parameters=dict(p=1.0), p=0.5),
dict(name='ChannelShuffle', parameters=dict(p=1.0), p=0.1),
dict(name='MultiplyAndAddToBrightness',
parameters=dict(mul=(0.85, 1.15), add=(-10, 10)),
p=0.6),
dict(name='AddToHueAndSaturation',
parameters=dict(value=(-10, 10)),
p=0.7),
dict(name='OneOf',
transforms=[
dict(name='MotionBlur', parameters=dict(k=(3, 5))),
dict(name='MedianBlur', parameters=dict(k=(3, 5)))
],
p=0.2),
dict(name='Affine',
parameters=dict(translate_percent=dict(x=(-0.1, 0.1),
y=(-0.1, 0.1)),
rotate=(-10, 10),
scale=(0.8, 1.2)),
p=0.7),
dict(name='Resize',
parameters=dict(size=dict(height=img_h, width=img_w)),
p=1.0),
],
),
dict(type='ToTensor', keys=['img', 'lane_line', 'seg']),
]

val_process = [
dict(type='GenerateLaneLine',
transforms=[
dict(name='Resize',
parameters=dict(size=dict(height=img_h, width=img_w)),
p=1.0),
],
training=False),
dict(type='ToTensor', keys=['img']),
]

dataset_path = './change_datasets_img'
dataset_type = 'CULane'
dataset = dict(train=dict(
type=dataset_type,
data_root=dataset_path,
split='train',
processes=train_process,
),
val=dict(
type=dataset_type,
data_root=dataset_path,
split='test',
processes=val_process,
),
test=dict(
type=dataset_type,
data_root=dataset_path,
split='test',
processes=val_process,
))

workers = 10
log_interval = 1000

seed = 0

num_classes = 4
ignore_label = 255
bg_weight = 0.4
lr_update_by_epoch = False
'

#error2
No CUDA runtime is found, using CUDA_HOME='/usr/local/cuda' /root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/installer.py:27: SetuptoolsDeprecationWarning: setuptools.installer is deprecated. Requirements should be satisfied by a PEP 517 installer. warnings.warn( running build running build_py running egg_info writing clrnet.egg-info/PKG-INFO writing dependency_links to clrnet.egg-info/dependency_links.txt writing requirements to clrnet.egg-info/requires.txt writing top-level names to clrnet.egg-info/top_level.txt /root/miniconda3/envs/clrnet/lib/python3.8/site-packages/torch/utils/cpp_extension.py:476: UserWarning: Attempted to use ninja as the BuildExtension backend but we could not find ninja.. Falling back to using the slow distutils backend. warnings.warn(msg.format('we could not find ninja.')) reading manifest file 'clrnet.egg-info/SOURCES.txt' adding license file 'LICENSE' writing manifest file 'clrnet.egg-info/SOURCES.txt' running build_ext Traceback (most recent call last): File "setup.py", line 100, in <module> setup(name='clrnet', File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/__init__.py", line 87, in setup return distutils.core.setup(**attrs) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/core.py", line 185, in setup return run_commands(dist) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/core.py", line 201, in run_commands dist.run_commands() File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/dist.py", line 969, in run_commands self.run_command(cmd) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/dist.py", line 1208, in run_command super().run_command(command) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/dist.py", line 988, in run_command cmd_obj.run() File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/command/build.py", line 132, in run self.run_command(cmd_name) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/cmd.py", line 318, in run_command self.distribution.run_command(command) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/dist.py", line 1208, in run_command super().run_command(command) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/dist.py", line 988, in run_command cmd_obj.run() File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/command/build_ext.py", line 84, in run _build_ext.run(self) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/setuptools/_distutils/command/build_ext.py", line 346, in run self.build_extensions() File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/torch/utils/cpp_extension.py", line 499, in build_extensions _check_cuda_version(compiler_name, compiler_version) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/torch/utils/cpp_extension.py", line 382, in _check_cuda_version torch_cuda_version = packaging.version.parse(torch.version.cuda) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/pkg_resources/_vendor/packaging/version.py", line 49, in parse return Version(version) File "/root/miniconda3/envs/clrnet/lib/python3.8/site-packages/pkg_resources/_vendor/packaging/version.py", line 264, in __init__ match = self._regex.search(version) TypeError: expected string or bytes-like object

I want to train the model but training stop and not working.(#error1)
So, I'm trying to reset the Docker and conda virtual environment, but I'm getting the following error(#error2)
- I Installed conda torch version
conda install pytorch torchvision torchaudio cudatoolkit=11.1 -c pytorch -c conda-forge python setup.py build develop

Answer 1 · 2023-06-11T17:45:30.000Z

First of all, make sure you have CUDA, CUDnn on your system.
The problem is that pytorch version, when you run conda install pytorch , it will install last version not 1.8. And, it creates this problem.
so, you should use pip install command which is the given command on the README.