학습 속도 관련

Question

학습 속도 관련

Opened this issue 3 years ago · 4 comments

데이터를 20000만개 정도 학습하려고 보니 학습속도가 너무 느려서 질문드립니다.
batch size를 조절해 보려고하는데 batch를 하나하나를 보는것 같더라구요 (알고리즘 이름이 기억이 안나지만 제대로 본지 모르겠습니다.)
혹시 학습속도를 증가시킬만한 방법이 있을까 여쭤봅니다.
CuDNNLSTM를 사용하는것도 고려중입니다.
또한 relu 대신 sigmoid를 사용하시는 이유도 따로 있다면 알고싶습니다.
GPU utilization이 12%~20% 정도 나옵니다. (이것이 정상인지도 궁금합니다.)

Answer 1 · 2021-04-27T00:25:23.000Z

@ChulgooKim
model 및 activation function은 바꿔서 실험해 보셔도 좋겠습니다. relu는 positive input에서는 linear이고 negative input에서는 0인데 저는 negative input도 살리고 싶었고 input 절대값이 크면 큰 차이를 두고 싶지 않아서 1로 수렴하도록 sigmoid를 사용했습니다.

GPU 사용량은 확인해볼 필요가 있겠습니다. 사용하는 Python 버전, TF 버전이 무엇인지요?

Answer 2 · 2021-04-27T01:02:56.000Z

@quantylab 답장감사합니다.
RTX3090을 사용하는지라
( https://www.pugetsystems.com/labs/hpc/How-To-Install-TensorFlow-1-15-for-NVIDIA-RTX30-GPUs-without-docker-or-CUDA-install-2005/ )
위 링크를 참고로 python3.6에 TF1.15를 설치해 진행해봤습니다.
관리자님께서 올리시 TF2.4베타 버전이 업데이트 되고나서 python3.8 버전에 TF 2.4 으로도 실험을 진행해봤구요. (TF2.4버전이 조금더 느리게 나오더라구요)

Answer 3 · 2021-06-06T11:39:59.000Z

@ChulgooKim 잘되셨는지 궁금합니다. nvidia-tensorflow, nvidia-docker는 전부 loss값이 Nan이 나오더라구요. tensorflow2.4.1이상에서만 돌아가던데,, retracing이 발생하여 cpu연산이 대부분이라 gpu활용이 안되네요.

@quantylab 답장감사합니다.
RTX3090을 사용하는지라
( https://www.pugetsystems.com/labs/hpc/How-To-Install-TensorFlow-1-15-for-NVIDIA-RTX30-GPUs-without-docker-or-CUDA-install-2005/ )
위 링크를 참고로 python3.6에 TF1.15를 설치해 진행해봤습니다.
관리자님께서 올리시 TF2.4베타 버전이 업데이트 되고나서 python3.8 버전에 TF 2.4 으로도 실험을 진행해봤구요. (TF2.4버전이 조금더 느리게 나오더라구요)

Answer 4 · 2021-06-17T00:50:37.000Z

@gigascake GPU를 효율적으로 사용해서 학습하지는 못하지만 학습이 되는 부분은 확인했습니다.
좀 더 개선되면 다시 시도해보려고 합니다.