МакДи
Затраты / Окупаемость очень большие

И сделать голосовой энджайн, что бы он мог еще и разными голосами, и интонациями, и фразы правильно читать - такое пока что не окупиться, к сожалению. Просто его надо строить на нейронных сетях, причем делать так - что бы он мог обучаться, что бы знал фонетику, знал правила языка, где надо повышать голос, понижать, передавать эмоции. Фактически написать полноценный ИИ, в рамках развития современного программирования - невозможно. Затраты большие, надо придумывать уникальные алгоритмы и цепочки обучения, таких гениев, пока не появилось - но со временем, думаю эта задача будет решена

Зачем же так извращатся то?
Vocaloid2 - и заранее прописаная речь на уровне длительности, громкости и передачи эмоций объем коих будет в разы меньше объема начитанной и записанной в мп3, огц речи.
З.Ы. Кто не знает Hatsune Miku - первый звук будущего?