「システム動作が遅い」と感じる時の要因と対処について
木曜日, 12月 14th, 2023
(2023/12/14)
1)はじめに
私どもがお客様サポートで現場を訪問させていただくと、「装置やシステムの動作が以前より遅くなっている、解決法は?」とのご質問が、装置の操作質問(ティーチング)の次に多い。
装置やシステムが遅延すれば、作業出来高や出荷高に影響する為、非常に深刻な課題である。従い素早い復旧が求められるが、昨今の検査装置は「サーバ・クライアントシステム」を核としたネットワークのシステム上で動作しており、適切な現象把握と対応が必要である。
ここでは、現象例とトラブルシュートを簡単にご紹介する。
2)現象例
装置や端末ごとに、典型的な症状を列挙する。
①検査装置本体
・検査装置を起動し初期化を行った際に、サーバ接続エラーが発生する。
・検査プログラム選択後、読み込み時に時間がかかる。
・検査タクトが一定でない。遅延する時がある。
・追加でティーチングしたらタクトが遅くなった。
・検査終了時、検査結果を出力する段階で、装置がいったんフリーズする。
②ティーチング端末
・ティーチング開始時の検査プログラム読み出しに時間がかかる。
・部品ライブラリ等の読み出しに時間がかかる。
・基板画像の読み出しに時間がかかる。
・ティーチング実行後の検査プログラム保存やリリースに時間がかかる。
③修正支援端末
・作業開始時の検査結果読み出しに時間がかかる。
・基板情報選択後、不良個所の情報を表示するまでに時間がかかる。
・修正結果入力後、次の基板の情報を表示するまでに時間がかかる。
④サーバ(ネットワーク)
・電源投入後、サーバが起動するまでに時間がかかる。
・サーバ上で動作するソフトウエアの起動に時間がかかる。
3)トラブルシュート
装置ごとに、以下を確認する。
◆確認その1・・・不具合を起こしている装置は特定の装置か?すべての装置か?確認する。
⇒ もし特定の装置のみに現象発生するのであれば、その装置が課題を抱える可能性が高い。長時間の連続通電運用をするとメモリリークが進み、有効なメモリ領域が不足したまま運用しているケースもあるので、装置再起動を試行する。
また、PC筐体へのホコリ付着でパフォーマンスを低下させる事も多いので、清掃を実施する。
上記でも復旧しない場合は、ハード面の不具合を起こしていないか確認する必要がある。
(カメラ通信・装置本体PCの状況・装置からサーバまでの通信経路の確認・比較を実施する。)
長時間運用下でのPC能力低下(メモリ故障、HDDの故障やデフラグ化)も考えられる。同じ系統の装置があれば、良コンディションの装置と一時的にPCを入れ替え試運転し、現象の移行有無を確認する。
装置からサーバにネットワーク接続している場合は、装置側のネットワーク接続状況を確認する。特にコネクタ破損したLANケーブルを使用していると、稀に接続異常を起こす事もあるので即交換する事が望ましい。
運用面では、ウイルス等の混入によるPCやネットワーク遅延も考えられるので、ウイルススキャンソフト等でウイルスやマルウエアを検査・駆逐する。
但し、装置はネットワークによる情報共有を行っており、ウイルス拡散している可能性も高いので、全ての装置に対し検査をする事を推奨する。
ウイルススキャンソフトの常駐可否についてよくご質問をいただくが、一般的にはソフト常駐することでPCやネットワークのパフォーマンスを低下させる要因となりうるので、作業が終了したらソフト常駐しない事を基本とすべきである。
⇒ 装置すべてに現象が及んでいる場合は、装置側の問題よりも、サーバやネットワーク側に現象が依存している事が考えられるので以下を実施する。
特に検査動作中、または検査後に遅延する場合、いったんサーバへの出力を停止した状態に設定変更し検査運転を進め、現象の有無を確認する。
もし出力を停止した事で現象を回避できるならば、サーバやネットワーク側に現象が依存している可能性が高いと考えられる。
◆確認その2・・・特定の機種データに現象が依存しているか?すべての機種に当てはまるか?
⇒ もし特定の機種に対し当てはまるのであれば、下記を確認する。
最近実施したティーチング作業にミスはないか?複雑高度な検査ロジック(異物検査・文字検査等)を追加した場合は、検査タクトが助長するケースがある。
特に全面異物検査や照明光源を追加した場合は、視野数(FOV)が増加し、検査タクトが助長する可能性が高い。これを判断するには、いったん元の状態に戻して(またはバックアップしていた検査プログラムを活用して)両者の比較を行い、検査タクトの変化を確認する。
⇒ 検査プログラム特有の特徴はないか?
多個辺取り基板の場合、個辺コピー作業時のミスで同じ個辺を複数回検査する設定にしていた事例も見受けられたので、今一度落ち着いて確認を行う事が重要である。
QRコード読み取り登録やその他の登録についても、重複登録ミスがないかを確認する。
以下を確認する。
◆確認その1・・・不具合を起こしている端末は、特定の端末か?すべての端末か?確認する。
⇒ もし端末の保有が一台のみであれば、下記の確認を実施する。装置同様、長時間の連続通電運用下では、メモリリークが進み有効なメモリ領域が不足したまま運用しているケースもあるので、端末再起動を試行する。
また、PC筐体へのホコリ付着でパフォーマンスを低下させる事も多いので、清掃を実施する。
上記でも復旧しない場合は、ハード面の不具合を起こしていないか確認する必要がある。
(PC状況・装置からサーバまでの通信経路の確認など)
長時間運用下でのPC能力低下(メモリ故障、HDDデフラグ化や故障)も考慮される為、PCパフォーマンスを定量的に診断する必要がある。(Windowsタスクマネージャを活用する。)
ティーチング端末内には、一時保存された基板画像など大量の作業ファイル群を保有する場合が多く、フォルダやファイル破損による動作遅延の可能性も考えられるので、いったんすべて削除する。データ格納フォルダに関しても、再構築すればフォルダに関する不安を回避できる。
お客様自身で最近導入したソフトウエアがあれば、それを削除して変化の有無を確認する。また、CAD情報など外部環境からUSBメモリ等で情報を受け取るケースも多いので、ウイルス混入のリスクは他の端末群よりも高くなる。結果としてウイルス感染によるPCやネットワーク遅延も考えられるので、ウイルススキャンソフト等でウイルスやマルウエアを確認・駆逐をする。
ウイルス感染の予防策として、ティーチング端末にUSBメモリ機器を接続する運用の場合は、一度他の端末でウイルスチェックを実施したクリーンな状態のUSBメモリに統一し使用するなどして、ウイルス感染の未然防止を図る事が、システム安定運用にたいへん重要である。
直近で、お客様自身によりPCやソフトウエア設定変更、PC周辺機器を追加したのであれば、いったん元の状態に戻して確認する。周辺機器を追加する際にWindowsや周辺機器自身が自動的に必要なドライバソフトをインストール導入する場合があり、それが不具合発生の要因となりうるからである。
⇒ 現象が複数台に及んでいる場合は、端末固有の問題よりも、ネットワークやサーバに現象が依存している事が考えられるので、「④サーバ(ネットワーク)」の項を参照いただきたい。
⇒ 基本的に「②ティーチング端末」と同等の対応をとる。特性として、ティーチング担当者よりもPC知識が乏しい方が操作するケースが多いので、誤ってPCの設定を変更した、ホコリの多い場所での運用でPCのコンディションが悪い事例が散見される。また、現場のレイアウト変更で端末を移設する際に、誤ってLANケーブルコネクタを破損し、挿入が不完全なまま運用している事例が非常に多く、不意の通信異常の要因となる。コネクタ破損したLANケーブルは、即交換が望ましい。
検査装置やティーチング端末、修正支援端末側に問題がない場合は、サーバやネットワークに対し点検を進めてゆく。
⇒ サーバに問題があるケース
昨今、サーバは単なるデータストレージ機能だけでなく、クライアント端末(検査装置・ティーチング端末・修正支援端末)に情報を提供する役割を担っているほか、情報の堅牢性を確保する為にRAID構成にして多重管理する、上位基幹システムへの情報提供など、様々なサービスやデータベースシステムが動作しており、システム構成上最も過酷な状況下に置かれていると言っても過言ではなく、文字通りサーバ・クライアントシステムの要である。しかし、運用実態は、一度起動した後は何も起こらない限りメンテナンスせず運用し続けるケースが多く見受けられる。
ハード障害時においては、サーバ独自の自己診断システムで不具合個所がレポート・教示され即座に対処ができるしくみが搭載されているが、先のとおりサーバ自身への管理注目度が低いので不具合レポートを見落とし、システム停止に至ったのち不具合に気が付くケースが非常に多い。これを予防する為に、自社の日常点検項目にサーバ状況確認を加え、ハード障害の早期検知を図る事が重要である。
続いて、サーバの確認個所を以下にまとめる。
システム全体の動作が遅い場合で、サーバを長時間運用しているのであれば、一度サーバを再起動することを推奨する。この際、周辺機器も併せて再起動を実施する。
サーバが再起動し、内部で動作している各種サービスが安定稼働するまでには約10分程度要するので、その後検査装置やティーチング端末の電源を順次再投入し、システム全体を起動させる。
サーバは定期的に再起動すべきである。理由は、前出の通り、様々なソフトウエアがバックヤードで動作しており、長時間に渡り稼働する事でメモリリークによりメモリ領域を食いつぶす。再起動する事でメモリ解放し元の状態に戻すことができる。
次に、サーバにもウイルスが潜伏している可能性が否定できないので、ウイルス対策ソフトでウイルス検査を実施し、速度低下の要因となりうるウイルスやマルウエアを排除する。
尚、サーバにウイルススキャンソフトを常駐してよいかご質問をいただくが、設備メーカー推奨のソフトウエアであれば問題ないと思われる。しかし一般的にウイルススキャンソフトを導入すると、サーバを入出力する情報をすべてスキャンする事になるので、システム全体の動作を遅延させる要因となりうるので慎重な検討が必要である。出来れば運用面(例:ウイルス感染要因のUSBメモリ等の接続を禁止する)でカバーし、速度低下リスクを最小限にとどめつつウイルス罹患を予防し運用すべきである。
通常、サーバには検査プログラム情報や検査結果情報(基板画像も含む)を保持しており、ユーザは領域の許す限りこれを保持しようと保存期間を延ばす傾向にある。しかし保持するデータが多ければそれだけサーバの情報管理負荷も増大するので、最小限のデータ保持に留める事を推奨する。もし検査結果の長年保持が必要であれば、一度サーバから情報を取り出し、別の手段で保管・運用する事が望ましい。
長時間に渡りファイルの入出力を行っていると、フォルダが破損する(ファイル保存などができなくなる)事例も報告されている。この事象が疑われる場合は、新しくフォルダを作り直すことで解消される。(この際、装置側の出力先フォルダの変更も併せて実施する。)
前に記述したとおりサーバ中では様々なサービスやデータベースシステムが動作しており。これが不具合を起こしている事も考えられる。サーバ内のサービスシステムの不調による速度低下やシステムダウンしたケース、またデータベースシステム(ソフトウエア)の断片化により速度低下する事象が報告されており、この場合は断片化を修正する事で動作速度を回復する事も可能であるが、これは専門的な知識が必要なので、具体的な対処については設備メーカーやIT専門家へサービス依頼をした方が良いと思われる。
⇒ ネットワークに問題があるケース
ネットワークに関しての専門知識は巷に専門書やノウハウが存在するのでそちらを参考にしていただきたい。ここで紹介するのは、あくまでお客様内での事例ベースである事をお断りさせていただく。
また「一度正しく設備設置した(正しく動作していた)が、運用を進めていくなかで速度低下したケース」として記述を進める。
装置・ティーチング端末・サーバに問題がないのに動作が遅延する場合は、ネットワークの問題の可能性が高い。HUBも、一度電源を投入すると不具合等がない限り電源を入れ直す事もないので、まずは一度電源を再投入して現象の変化をご確認いただきたい。
また、疑わしいのは、お客様内での増設などに起因する設定変更や機器の故障である。
ネットワークはLANケーブルとHUBによって構成されているが、速度の遅い旧規格のLANケーブルやHUB(例:100Base/T用)を使用していた事例や、HUB自身の故障の事例が多い。前者の場合、工事日にHUBが不足し手持ちのHUBを接続したが、それが旧規格のHUBで、これにネットワーク全体が速度律速していた事例があった。確認動作時は小容量の通信量であるので問題に気が付かず、いざ本番運用で画像等の大容量通信を実行する際に不具合が露呈した事例を経験している。
HUB故障の診断については判断が難しい。完全に通信できない状態なら判断も容易だが、大容量の通信時だけ遅延するケースもあるので故障判断が困難である。それならばHUBは消耗品と捉え、予備のHUBを準備しておき定期的に交換する、また故障が疑われる場合は即交換して現象の改善を確認する事で不具合の未然防止や早期解決を図るべきである。
一般的に、増設を繰り返した工場フロアでは、ネットワーク内にいくつも新旧HUBを設置しているケースがあるが、これも不具合を誘発する要因となる。できれば最少のHUBでレイアウトした方が故障時の対応も簡単かつ素早く対応できる。
LANケーブルについても、必要スペックを満たすものを使用する。現在主流の1000Base/T通信規格であれば、LANケーブル規格はカテゴリ6以上が推奨されるが、より上位規格のものであればノイズ耐用性の高いシールド対応機種もあるので、そちらを使用した方がLANケーブルに関する不安を取り除く事ができる。
一般的に、LANケーブルは工場内の電線ラック等に束ねてレイアウトする為、LANケーブル自身の不具合が疑われる場合にその1本を取り出して確認したり交換したりする事が面倒であり、結果として不具合の特定を困難にしている。これを解消する為に、工場内にレイアウトする際には予備のLANケーブルを数本レイアウトしておけば、不具合発生時にはそちらへ素早く差し替えることでシステムのダウンタイム低減を図る事ができる。
お客様とのやりとりで課題になるのは、現在のネットワーク構成が明確になっていない為に、ネットワーク経路を調べようとしても進まない事例が非常に多い。設置初期は図表化されているが、その後増設を繰り返し、現状と著しく食い違うケースが散見される。平常時こそネットワーク構成の図表化を進めていただき、第三者から見ても構成が理解できるように管理することが重要である。
時間限定で速度遅延を訴える事例も多い。例えば「午後のXX時付近が遅い」「XX時からXX時の間でシステムが遅延する」などである。工場内は検査装置だけでなくマウンター等複数の設備やネットワークが稼働している事例も多く、そちらからの影響を考慮する必要がある。もし「平日は遅延が多い」が「周辺の装置が停止している休日では速度遅延がなく快適に運用できる」のであれば、ネットワークを物理的に完全に切り離し(検査装置だけのローカルLAN環境にして)、運用することを推奨する。物理的に切り離しが難しい場合、IPアドレス構成のセグメントを分離してレイアウトする事で影響を最小限にできる。セグメントの管理や変更については、各専門書も詳しいが、設備メーカー担当者やITエンジニアに相談いただく事が望ましい。
4)むすびに
私どもがお客様サポート時に経験した事例をもとに、簡単に事例紹介させていただいた。繰り返しになるが、現代の検査装置システムは、装置単体で構成されているのではなく、各機器が情報をリアルタイムでやり取りしパフォーマンスを担保している為、システム内の装置や端末どれかが不具合を起こすと、パフォーマンス低下が全体に波及するので注意が必要である。装置・端末単体から点検を進め、やがてシステム全体に対し俯瞰的視点をもって点検を進めてゆくのが大切である。
お客様の運用を拝見すると、不具合を内在したまま運用されているケースも多く見受けられ、直接・間接的に生産活動に対し影響を及ぼしている事例も多い。可能であればトラブルが表面化する前の予防措置として定期的に点検を進めていただきたいし、その際にこの情報を活用いただければ幸いである。
これ以上のトラブルシュートになると、お客様自身での対応が難しいと思われるので、メーカーや専門家の診断を仰ぎつつ、最大効率での生産活動を進めていただきたいと思う。