Варианты сегментации в САТ
论题张贴者: DZiW (X)
DZiW (X)
DZiW (X)
乌克兰
English英语译成Russian俄语
+ ...
May 19, 2015

Приветствую.

Сегодня постоянный клиент прислала ТМ и задание на перевод EN>RU.
С текстом ничего особенного, подключение прошло без нюансов, НО сегментация ТМ выполнена по абзацам 2-5 предложений.

Я в курсе, что есть различные варианты и цели, но вот какая п�
... See more
Приветствую.

Сегодня постоянный клиент прислала ТМ и задание на перевод EN>RU.
С текстом ничего особенного, подключение прошло без нюансов, НО сегментация ТМ выполнена по абзацам 2-5 предложений.

Я в курсе, что есть различные варианты и цели, но вот какая польза?
Согласен, иногда с вариантом в контексте легче сориентироваться, но как-то напряжно, ведь кроме заниженного индекса совпадения (fuzzy match) приходится ещё обрезать. Наловчиться вполне реально, но стоит ли оно того...

Подскажите, я один такой устаревший с настройками по умолчанию или действительно есть какое-то преимущество?

Спс.
Collapse


 
Mikhail Kropotov
Mikhail Kropotov  Identity Verified
德国
Local time: 18:15
English英语译成Russian俄语
+ ...
Ячейки из Excel? May 19, 2015

Если сегментация делается по целым ячейкам, это может быть вполне оправданно. Смотря что за текст.

А что обрезать приходится?

[Edited at 2015-05-19 11:31 GMT]


 
Andrej
Andrej  Identity Verified
Local time: 22:15
正式会员 (自2005)
German德语译成Russian俄语
+ ...
Across May 19, 2015

Возможно, память экспортирована из Across, в котором, скажем мягко, сегментация идиотская. В том числе и целыми абзацами.

 
DZiW (X)
DZiW (X)
乌克兰
English英语译成Russian俄语
+ ...
主题发起人
Хм May 19, 2015

Спасибо, Михаил.
А ведь вполне может быть, что дело в Excel. Тогда всё не так уж и загадочно.

Это обычный .DOCX файл, где "по-абзацный" ТМ заказчика выдаёт довольно низкий match именно из-за того, что на одно fuzzy предлагается совпадение с пачкой предложений (исходный абзац ил�
... See more
Спасибо, Михаил.
А ведь вполне может быть, что дело в Excel. Тогда всё не так уж и загадочно.

Это обычный .DOCX файл, где "по-абзацный" ТМ заказчика выдаёт довольно низкий match именно из-за того, что на одно fuzzy предлагается совпадение с пачкой предложений (исходный абзац или ячейка). Вот и приходится либо копировать нужную часть, либо обрезать лишнее даже у 100% match с нагрузочными предложениями, что превращается где-то в 52% match.

Суть в том, что такая нетрадиционная, в смысле - альтернативная разбивка на сегменты мне не особо помогает в Computer-Aided/Assisted Translation, а должно бы...

Ладно, раз дело ясное, что дело тёмное, то надо бы как-то пересегментировать и/или заново сопоставить/выровнять ТМ почти на 5,5МБ. Коллеги, есть предложения пока я не привык к абзацам?)


Андрей, а вы не подскажете, если я импортирую в бесплатный Across, то будет легче или fuzzy match останется "блочный"?

Благодарю.

[Edited at 2015-05-19 12:06 GMT]
Collapse


 
Mikhail Kropotov
Mikhail Kropotov  Identity Verified
德国
Local time: 18:15
English英语译成Russian俄语
+ ...
Align May 19, 2015

Если я правильно Вас понял, сегментация по абзацам -- в ТМ. Следовательно, нужно настроить сегментацию и рабочего документа тоже по абзацам.

Если наоборот, то, соответственно, наоборот.


 
boostrer
boostrer  Identity Verified
美国
Local time: 12:15
正式会员 (自2007)
English英语译成Russian俄语
+ ...
* May 19, 2015

Либо ТМ сделана из таблицы, либо образовалась при переводе сайта.
Если пользуетесь МемоКу, то сочетания из 2-3 предложений не проблема. Если абзацы больше, то да, сложно.
С другой стороны, чужая ТМ помогает мало и редко, так что все равно проблем нет - и зачем стулья ломать?


 
DZiW (X)
DZiW (X)
乌克兰
English英语译成Russian俄语
+ ...
主题发起人
одно из условий заказа May 19, 2015

сохранить лексику и стилистику автора ТМ. То есть, скорее всего это продолжение перевода, а не работа с чистого листа. Я глянул текст, оценил примеры перевода в ТМ и согласился на условия, но не ожидал подвоха с сегментацией.

В принципе, в такой "поблочной" сегментации
... See more
сохранить лексику и стилистику автора ТМ. То есть, скорее всего это продолжение перевода, а не работа с чистого листа. Я глянул текст, оценил примеры перевода в ТМ и согласился на условия, но не ожидал подвоха с сегментацией.

В принципе, в такой "поблочной" сегментации тоже есть свой некий шарм - не такой сильный отрыв от кон/текста, но никакущий match пока только усложняет процесс сверх ожидаемого - иногда в TU более пяти предложений.

Работа не срочная, так что для начала распечатаю пару страниц для образца и параллельно гляну варианты стандартизации для более построчной сегментации. Так смотри - и заказчик к тому времени что-то рациональное подскажет.

Век живи, век учись)
Collapse


 
Maxim Manzhosin
Maxim Manzhosin  Identity Verified
俄罗斯联邦
Local time: 19:15
English英语译成Russian俄语
Align May 19, 2015

DZiW wrote:

заново сопоставить/выровнять ТМ


Так как в ТМ одному предложению оригинала не обязательно соответствует ровно одно предложение перевода, придется выравнивать в полуавтоматическом режиме: проверять результаты машинного выравнивания и исправлять ошибки. То есть это мало чем отличается от обычного выравнивания двух файлов с оригиналом и переводом.

Экспортируйте ТМ в формат «текст, разделенный табуляцией», откройте этот файл в Excel, вырежьте столбец с переводом и вставьте в другой файл. У вас останется оригинал в одном файле, а перевод в другом. Скормите эти два файла Studio/WinAlign/ABBY Aligner/вашей любимой программе и надейтесь, что ошибок выравнивания будет не очень много.


 
DZiW (X)
DZiW (X)
乌克兰
English英语译成Russian俄语
+ ...
主题发起人
Ну, более-менее May 20, 2015

Заказчик не смогла уточнить почему такая сегментация ТМ и в какой САТ выполнялась, но согласилась дополнительно оплатить почасовую правку ТМ как за редактуру.

Учитывая, что у меня нет скидок за повторы и с меня требуют только в сроки сдать чистовик, то это весьма неплохо) Хотя иногда вот попадаются разорванные тегами предложения, но это уже терпимо.

Всем спасибо.


 
Maxteams
Maxteams
English英语译成Russian俄语
Варианты сегментации в САТ May 20, 2015


Экспортируйте ТМ в формат «текст, разделенный табуляцией», откройте этот файл в Excel,...


Дальше можно сделать еще проще:
1) Копируйте первый столбик (target), вставляете в Word и сохраняете
2) Копируйте второй столбик (source), вставляете в Word и сохраняете
3) Затем выравниваете (align или alignment) два файла. Это можно сделать в Trados, MemoQ, ABBY Aligner. (Зависит от того с какой программой вы работаете)
4) Сохраняете выравненный файл в нужном формате и загружаете в TM
И будет вам счастье.
На все это потребуется не более 10-15 мин.


 
boostrer
boostrer  Identity Verified
美国
Local time: 12:15
正式会员 (自2007)
English英语译成Russian俄语
+ ...
Счастья не будет May 21, 2015

[quote]Maxteams wrote:


Экспортируйте ТМ в формат «текст, разделенный табуляцией», откройте этот файл в Excel,...
На все это потребуется не более 10-15 мин.


Это если в ТМ пара сотен сегментов. Если больше, то править выравнивание вручную - это кошмар и ужас, лучше не связываться. Уйдет несколько часов или дней.

[Edited at 2015-05-21 20:30 GMT]


 


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Варианты сегментации в САТ


Translation news in 俄罗斯联邦





Wordfast Pro
Translation Memory Software for Any Platform

Exclusive discount for ProZ.com users! Save over 13% when purchasing Wordfast Pro through ProZ.com. Wordfast is the world's #1 provider of platform-independent Translation Memory software. Consistently ranked the most user-friendly and highest value

Buy now! »
Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »