EN→JA

Terminology-aware English-to-Japanese translation. Comparing prompt-only, fine-tuned, RAG, and agentic approaches.

Datasets & Knowledge Base

📚

Training Data

24K EN-JA pairs

Tatoeba, JParaCrawl

📑

Glossary

320+ terms

Tech/UI terminology

📋

KB Chunks

47K+ embedded

Parallel, grammar, style, errors

🔍

Test Set

250-4,254

Varies by variant

Data Pipeline

Collect → Normalize → Filter & Dedup → Split → Chunk → Embed → S3 Vectors

Tech Stack

Base Model

Qwen 2.5-0.5B

Agentic Model

Claude Sonnet 4.6

Vector Store

AWS S3 Vectors

Embeddings

multilingual-e5-small