---
title : FAQ-TWNIA2 | zh
tags: FAQ, ZH
GA: UA-155999456-1
---
{%hackmd @docsharedstyle/default %}
# TWCC FAQs | 台灣杉二號 (命令列介面) (TWNIA2)
## 連線登入
:::spoiler Q1. 請問如何登入台灣杉二號(命令列介面)?
:::info
使用 SSH 方式登入,登入節點為 ln01.twcc.ai,先輸入主機密碼再輸入OTP,即完成登入,詳細登入步驟請參考[<ins>此文件<ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/https%3A%2F%2Fman.twcc.ai%2F%40twccdocs%2Fguide-twnia2-login-and-logout-zh)。
:::
:::spoiler Q2. SSH 連線至 TWCC 上的資源 CCS、VCS 和 HPC 有哪些可使用的的開源軟體?
:::info
可以使用 MobaXterm、PuTTY 和 VSCode...等第三方開源軟體。
:::
:::spoiler Q3. 半年前登入過台灣杉二號 (命令列介面),而最近想使用時卻無法成功登入?
:::info
因為個人主機密碼時效是 180 天,如超過時效,需至 [<ins>Service 會員服務系統 <i class="fa fa-question-circle fa-question-circle-for-service" aria-hidden="true"></i></ins>](https://man.twcc.ai/@twsdocs/howto-service-access-service-zh) 更改個人主機密碼,修改完成後再進行登入。
:::
## 資源配置與監控
:::spoiler Q1. 台灣杉二號 (命令列介面) 是否可使用跨節點的運算?
:::info
台灣杉二號 (命令列介面) 可透過 [<ins>Slurm</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/%2F%40twccdocs%2Fguide-twnia2-slurm-intro-zh) 指令索取計算資源,執行[<ins>跨節點高速運算</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/https%3A%2F%2Fman.twcc.ai%2F%40twccdocs%2Fhowto-twnia2-run-parallel-job-container-zh),將高負載的工作量平均分派,提升處理效率。
:::
:::spoiler Q2. 使用跨節點運算,節點是系統自動選取或需手動選取?
:::info
您可以使用 Slurm 指令選取節點,相關指令請參考[<ins>此文件</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/%2F%40twccdocs%2Fguide-twnia2-job-parameter-zh)。
:::
:::spoiler Q3. 為什麼我執行任務索取多個 CPU 資源會發生錯誤?
:::info
請確認使用的資源比例,因台灣杉二號的資源比例必須為 1 GPU : 4 CPU : 90 GB Memory,例:GPU 數量須設定為 8 個才能取得 32 個 CPU。
:::
## 套件軟體
:::spoiler Q1. 請問在台灣杉二號 (命令列介面) 如何部屬環境執行我的程式?
:::info
1. Conda:使用簡單的 Conda 指令即可將套件安裝完成,並能切換至指定的虛擬環境,使用不同版本的 Python,解決多版本的相容問題,請參考[<ins>此文件<ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/https%3A%2F%2Fman.twcc.ai%2F%40twccdocs%2Fhowto-twnia2-conda-manage-packages-submit-job-zh)了解更多。
2. Singularity:透過 Singularity 包裝您所需的套件與程式,建立可在台灣杉二號 (命令列介面) 服務執行運算工作的容器環境,並可以快速部署套件、搬移、以及分享,請參考[<ins>此文件<ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/https%3A%2F%2Fman.twcc.ai%2F%40twccdocs%2Fhowto-twnia2-create-sglrt-container-zh)了解更多。
:::
:::spoiler Q2. 可以協助我安裝套件嗎?
:::info
您擁有自由安裝套件的權限,請您依所需自行安裝。此外,我們建議您使用 Conda 或 Singularity 容器管理套件。
:::
:::spoiler Q3. 排程系統 Slurm 是什麼?
:::info
請參考[<ins>此文件</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/%2F%40twccdocs%2Fguide-twnia2-slurm-intro-zh)有 Slurm 系統架構的詳細說明。
:::
:::spoiler Q4. 是否可以在台灣杉二號上安裝 Rclone 軟體同步工具?
:::info
台灣杉二號有安裝最新版的 Rclone,可以使用 `module load rclone` 指令來取得 Rclone 的使用環境。而 Rclone 是使用 Go 語言撰寫,解壓縮在家目錄即可直接使用。
:::
:::spoiler Q5. 台灣杉二號有支援 Nvidia 的 CUDA 運算架構嗎?
:::info
有的,在登入台灣杉二號節點後執行 `module avail` 指令,將會列出所有的可被載入的 module 資訊,您可使用 `module load` 指令選擇所需的 CUDA 版本。
:::
:::spoiler Q6. 為什麼有些套件在開發型容器可以使用,但在台灣杉二號不能,兩者不是共用高速儲存空間 (HFS) 嗎?
:::info
兩者儲存環境相同,但計算環境不同:
- 開發型容器的計算環境是由 TWCC 容器映像檔所建置。
- 而台灣杉二號則需使用者自行部署計算環境。
<i class="fa fa-lightbulb-o fa-20" aria-hidden="true"></i> **提示:** 台灣杉二號可使用 `module` 載入所需之套件,詳細使用方法請參考[<ins>此文件</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/%2F%40twccdocs%2Fguide-twnia2-module-intro-zh)。
:::
## 儲存與資料傳輸
:::spoiler Q1. 登入後發現 /home/$USER 沒什麼檔案是正常的嗎?
:::info
台灣杉二號的儲存空間是採用高速檔案系統,而此空間的使用權限為您個人所有,若您未曾載入檔案,此空間便是空的。
:::
:::spoiler Q2. 計畫到期後儲存在台灣杉二號的檔案會刪除嗎?
:::info
登入台灣杉二號使用的儲存空間為高速檔案系統,儲存空間是跟著個人帳號非計畫,因此計畫到期後檔案不會隨計畫刪除。
<i class="fa fa-exclamation-triangle fa-20" aria-hidden="true"></i> **重要:** **系統會定期清理 TWCC 帳號下久未使用之資源,請務必定期備份您的資料。**
:::
## 網路安全
:::spoiler Q1. 請問台灣杉二號的登入節點 IP 位置為何?
:::info
203.145.219.98
:::
## 執行錯誤
:::spoiler Q1. 使用台灣杉二號時出現錯誤訊息`QOSMaxSubmitJobPerUserLimit Error`?
:::info
此錯誤訊息顯示您提交超過 20 個計算工作上限 (**gtest** 為測試用 Queue,僅能提交 5 個工作)。
若遇此情況,建議您先使用 `squeue` 指令查看任務狀態,再使用 `scancel` 取消狀態為等待中或運行中的任務,減少提交的任務數量。Queue 與計算資源使用說明可參考[<ins>此文件</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/%2F%40twccdocs%2Fguide-twnia2-queue-zh)。
:::
:::spoiler Q2. 提交 Job 後,在`NODELIST(REASON)`出現錯誤訊息`QOSMaxGRESPerUser`?
:::info
此錯誤訊息顯示您在台灣杉二號的計算工作加總 GPUs 已達上限 (系統基本設定為 40 張 GPUs)。
Queue 與計算資源使用說明可參考[<ins>此文件</ins>](https://man.twcc.ai/@twccdocs/doc-twnia2-main-zh/https%3A%2F%2Fman.twcc.ai%2F%40twccdocs%2Fguide-twnia2-queue-zh),如達到上限將不能提交工作,請減少索取 GPU 資源。
:::
:::spoiler Q3. 執行 slurm 指令時出現錯誤訊息 `Socket timed out on send/recv operation`?
:::info
此錯誤訊息是因為登入節點系統較忙碌導致,請您稍等一陣子再執行一次命令即可。
:::