Skip to content
Khoá học AWSMachine Learning trong AWSGiới thiệu Transcribe, Polly

Amazon Transcribe là gì?

Amazon Transcribe là một dịch vụ Speech-to-Text được quản lý hoàn toàn bởi AWS. Dịch vụ này sử dụng công nghệ Automatic Speech Recognition (ASR) dựa trên Machine Learning để chuyển đổi giọng nói thành văn bản một cách chính xác, gần như thời gian thực.

Nhờ Transcribe, bạn có thể:

  • Tự động tạo phụ đề (subtitles) cho video.
  • Ghi chép hội thoại, meeting, cuộc gọi khách hàng.
  • Xây dựng chatbot hoặc voice assistant thông minh.

Các tính năng chính của Amazon Transcribe

1. Real-time Transcription

  • Chuyển giọng nói thành văn bản ngay lập tức qua streaming API.
  • Hữu ích cho ứng dụng live caption, call center monitoring.

2. Batch Transcription

  • Phân tích file audio/video đã lưu trữ (trên Amazon S3).
  • Phù hợp để xử lý lượng lớn dữ liệu ghi âm.

3. Speaker Identification (Diarization)

  • Phân biệt nhiều người nói trong cùng một đoạn hội thoại.
  • Ví dụ: “Speaker 1: Xin chào”, “Speaker 2: Chào bạn”.

4. Custom Vocabulary

  • Bổ sung các từ chuyên ngành, tên riêng, hoặc từ viết tắt để cải thiện độ chính xác.

5. Custom Language Models

  • Huấn luyện thêm trên tập dữ liệu riêng để nâng cao chất lượng trong ngữ cảnh đặc thù.

6. Channel Identification

  • Nhận diện nhiều kênh âm thanh trong cùng một file (ví dụ: cuộc gọi 2 chiều giữa agent và khách hàng).

7. Tích hợp PII Redaction

  • Tự động phát hiện và ẩn (redact) thông tin nhạy cảm (số thẻ tín dụng, địa chỉ, email) trong transcript.

Cách sử dụng Amazon Transcribe

  1. Chuẩn bị nguồn dữ liệu

    • Upload file audio/video vào Amazon S3.
    • Hoặc kết nối micro/stream qua Transcribe Streaming API.
  2. Gọi API Transcribe

    • StartTranscriptionJob cho batch mode.
    • StartStreamTranscription cho real-time.
  3. Nhận kết quả

    • Văn bản trả về ở định dạng JSON.
    • Có thể lưu transcript vào S3 hoặc xử lý bằng các dịch vụ khác (Athena, Elasticsearch, QuickSight).

Amazon Polly là gì?

Amazon Polly là một dịch vụ Text-to-Speech (TTS) được quản lý bởi AWS. Dịch vụ này sử dụng công nghệ deep learning để biến văn bản thành giọng nói tự nhiên, gần giống con người.

Với Polly, bạn có thể:

  • Tạo ứng dụng có khả năng giao tiếp bằng giọng nói.
  • Sinh file audio từ nội dung văn bản (tin tức, sách nói, e-learning).
  • Hỗ trợ accessibility cho người khiếm thị hoặc đọc kém.

Các tính năng chính của Amazon Polly

1. Natural Speech

  • Sử dụng công nghệ Neural TTS (NTTS) để tạo giọng đọc tự nhiên, mượt mà.
  • Giảm cảm giác “máy móc” so với TTS truyền thống.

2. Hỗ trợ nhiều ngôn ngữ và giọng đọc

  • Hơn 30 ngôn ngữ, 60+ giọng khác nhau.
  • Có thể chọn giọng nam/nữ, accent vùng miền.

3. Speech Marks

  • Trả về thông tin chi tiết về thời gian và vị trí từ/ngữ trong audio.
  • Hữu ích cho việc đồng bộ phụ đề (subtitles) hoặc lip-sync.

4. Lexicon & Pronunciation Customization

  • Cho phép tùy chỉnh cách phát âm từ ngữ bằng custom lexicons.
  • Ví dụ: “AWS” có thể phát âm thành “A W S” hoặc “Amazon Web Services”.

5. Multiple Output Formats

  • Hỗ trợ nhiều định dạng audio: MP3, OGG, PCM.
  • Có thể stream trực tiếp hoặc lưu vào file.