ドキュメント翻訳でスキャンしたPDFドキュメントを翻訳

投稿日時 2022年5月25日2022年5月27日によるものです。 Microsoft Translator

ドキュメントの画像を取り込むために使用する電話機です。

今日では、 ドキュメント翻訳は、Microsoft Azure Cognitive ServiceであるTranslatorの機能として、スキャンした画像コンテンツを含むPDF文書を翻訳する機能を追加し、お客様が翻訳前にOCRエンジンで前処理をする必要をなくしました。

文書翻訳は、昨年2021年5月25日に一般提供開始され、お客様は文書全体や文書のバッチを複数の 110の言語と方言を、元のファイルのレイアウトや書式を保持したまま翻訳することができます。ドキュメント翻訳は、Word、PowerPoint、PDFなどさまざまなファイル形式をサポートし、お客様は事前構築済みまたはカスタムの機械翻訳モデルを使用することができます。ドキュメント翻訳は、Azure Active Directory認証に対応しており、Managed Identityを通じてサービスとストレージ間の安全なアクセスを提供します。

スキャンした画像コンテンツを含むPDFを翻訳することは、文書翻訳のお客様から非常に要望の多い機能です。お客様は、自動化によって、通常のテキストやスキャンされた画像コンテンツを持つPDF文書を分離することが困難であると感じています。これは、お客様がドキュメント翻訳にそれらを送信する前に、OCRエンジンに最初にスキャンされた画像コンテンツを持つPDF文書をルーティングしなければならないので、ワークフローの問題を作成します。

ドキュメント翻訳サービスにインテリジェンスが備わった

を使用して、PDF 文書にスキャンされた画像コンテンツが含まれているかどうかを識別します。
は、スキャンした画像コンテンツを含むPDFを内部でOCRエンジンにルーティングし、テキストを抽出するために使用します。
を利用して、翻訳された内容を元のレイアウトや構造を保ったまま通常のテキストPDFとして再構築することができます。

太字、斜体、下線、ハイライトなどのフォントフォーマットは、OCR技術が現在それらをキャプチャしないように、スキャンされたPDFコンテンツのために保持されていません。しかし、通常のテキストPDF文書を翻訳している間、フォントの書式設定は保持されます。

ドキュメント翻訳では、現在、スキャンした画像コンテンツを含むPDFドキュメントをサポートしています。 68のソース言語から87のターゲット言語へ.原文言語と訳文言語のサポートは、順次追加していく予定です。

今それは顧客が文書翻訳にすべての PDF 文書を直接送り、いつそしてどのように OCR エンジンを効率的に使用するか決定することを可能にするために容易です。

既にドキュメント翻訳をご利用のお客様には、コード変更の必要はありません。スキャンした内容を含むPDF文書も、他の対応文書形式と同様に翻訳のために提出することができます。

また、ドキュメント翻訳では、スキャンしたPDFドキュメントのコンテンツを追加料金なしでサポートすることをお知らせします。Azureによるドキュメント翻訳には、従量課金プランと、より大量のドキュメント翻訳を行うためのD3ボリュームディスカウントの2つの料金プランが用意されています。料金の詳細については、以下をご参照ください。 aka.ms/TranslatorPricing.

ドキュメント翻訳の始め方については、こちらをご覧ください。 aka.ms/DocumentTranslationDocs.
ご意見・ご感想をお寄せください。 mtfb@microsoft.com。

マイクロソフト翻訳ブログ