Pythonで退屈な作業を自動化する「第22章 画像中の文字認識」の訳後感

訳文はPythonで退屈な作業を自動化するです。

この章は第3版で新設されました。

OCRは進歩の著しい領域であり、実務で必要になることも多いので、この内容が収録されたのは喜ばしいことです。

ただし、英語ではかなりの精度を誇っていても、日本語の精度は劣ります。本文中で示されている『フランケンシュタイン』の日本語訳の認識結果でも誤認識が目立っています。

本文で説明されているようにLLMを活用して修正する余地はあるかもしれません。また、最初からLLMに画像を読み込ませたり、Google Cloud Vision AIを使ったりすれば、日本語の認識精度が高くなるでしょう。

原著者も述べているように、Pythonを使うと高度な技術の詳細を意識せず簡単に利用できるのがいいですね。




コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です