Симон Погосян є засновником і генеральним директором компанії GSpeech, веб-платформа на основі штучного інтелекту, яка допомагає зробити онлайн-контент доступнішим, перетворюючи текст на природне аудіо понад 70 мовами. Маючи досвід у проектуванні VLSI та великий інтерес до програмування та взаємодії з користувачем, Саймон створив GSpeech, щоб спростити спосіб, у який веб-сайти можуть пропонувати контент з підтримкою голосового керування.
Сьогодні GSpeech генерує близько 200 мільйонів символів аудіо щомісяця та використовується у понад 70 країнах, а його налаштовувані аудіоплеєри обслуговують понад 200,000 1 відтворень щомісяця. Нещодавно перевищивши загальну кількість згенерованих аудіосигналів у XNUMX мільярд, GSpeech продовжує швидко зростати. Платформа розроблена для легкої інтеграції — вимагає лише одного рядка коду — та допомагає творцям, освітянам та компаніям робити свій контент більш інклюзивним та захопливим.
Ваш досвід у проектуванні НВІС (дуже великомасштабна інтеграція) та ранній досвід програмування заклали міцну технічну основу. Що надихнуло вас на перехід від мікроелектроніки до створення програмного забезпечення на базі штучного інтелекту, і як це призвело до створення GSpeech?
Моя пристрасть до вирішення проблем виникла ще у старшій школі, зумовлена любов'ю до математики та фізики. Цей інтерес привів мене до отримання ступеня бакалавра (2009) та ступеня магістра (2011) з проектування НВІС у Державному інженерному університеті Вірменії у співпраці з Synopsys Armenia. Вивчення фізики навчило мене точному та аналітичному мисленню, але саме на другому курсі я відкрив для себе програмування — почавши з мови Pascal — і одразу закохався в нього. Ми з другом виконували курсові роботи, щойно їх отримували, хоча у нас було шість місяців до завершення. Потім, заради розваги, ми почали виконувати завдання інших студентів.
Ця пристрасть привела мене глибше в розробку програмного забезпечення. Я почав зі створення веб-сайтів, а потім створив власну CMS. Після завершення кількох проектів з автоматизації процесів та проектування архітектур управління даними я зрозумів, наскільки мені подобається створювати цифрові рішення для веб-інтерфейсів. У рамках проекту 2GLux я співпрацював з Едвардом Ананяном — творцем популярного GTranslate перекладацька служба та шкільний друг з гімназії Quantum. Він познайомив мене з екосистемами WordPress та Joomla, а також з концепцією GSpeech виникла з нього. Ця рання робота призвела до створення першої версії нашого інструменту, який дозволив користувачам прослуховувати текст на веб-сторінці, заклавши основу для того, що згодом стане повнофункціональною платформою штучного інтелекту. До 2023 року я створив ТОВ «Смартс Клуб». масштабувати GSpeech у глобальне аудіорішення зі штучним інтелектом, що підтримує понад 70 мов. Humanity UnionПохвала ролі GSpeech у покращенні доступності їхньої платформи громадянської взаємодії відображає мою місію подолати цифрову нерівність за допомогою штучного інтелекту — бачення, яке корінилося в моїх ранніх роках програмування.
GSpeech спочатку був інструментом для підтримки користувачів з вадами зору. Як ця рання місія вплинула на еволюцію платформи в повнофункціональне рішення для перетворення тексту в мовлення на основі штучного інтелекту?
Зосередження уваги на доступності сприяло розробці високоякісного аудіо в режимі реального часу зі штучним інтелектом, перекладу понад 70 мовами та безперешкодної інтеграції з веб-сайтом за допомогою простого фрагмента коду. Ця місія призвела до появи таких функцій, як налаштовувані аудіоплеєри, панелі вибору мови та голосу, контекстно-залежне відтворення, завантаження аудіо та детальна статистика використання, включаючи дані про країну, місто, пристрій та аналітику відтворення з плином часу, — усі вони розроблені для того, щоб зробити контент більш інклюзивним та захопливим. Написавши понад 100,000 2023 рядків коду, я запустив хмарну консоль GSpeech у XNUMX році — масштабоване рішення, яке поєднує інклюзивність з розширеною функціональністю, надаючи компаніям та творцям можливості робити свій контент доступним, багатомовним та інтерактивним в Інтернеті.
З якими найбільшими технічними труднощами ви зіткнулися під час розробки хмарної консолі GSpeech?
Одним із найбільших викликів у розробці хмарної консолі GSpeech було проектування масштабованої архітектури для безпечної, високоякісної генерації аудіо за допомогою штучного інтелекту в режимі реального часу. Це вимагало інноваційних рішень для отримання відповідного контенту з Інтернету, обробки аудіо на наших серверах та його зберігання в хмарі для швидкої та надійної доставки. Впровадження надійних заходів безпеки, таких як шифрування та контроль доступу, мало вирішальне значення для захисту динамічного контенту, створеного користувачами.
Ще однією перешкодою було забезпечення можливості перекладу в режимі реального часу за допомогою передових нейронних двигунів. Нам потрібно було забезпечити точні переклади з низькою затримкою, водночас створюючи інтуїтивно зрозумілий інтерфейс, який дозволяв би користувачам вибирати мови та бажані голосові профілі для відтворення, надаючи пріоритет комфорту користувача та персоналізації. Нарешті, ми розробили майстер створення аудіошаблонів з кількома налаштовуваними режимами перегляду плеєрів, що дозволяло користувачам створювати унікальні, візуально привабливі плеєри, адаптовані до їхніх веб-сайтів. Балансування гнучкості, продуктивності та простоти використання на різних пристроях було складним завданням.
Завдяки перекладу в режимі реального часу понад 70 мовами та понад 230 природними голосами. Як ви забезпечуєте якість голосу та підтримуєте точність у такому різноманітному мовному наборі?
Щоб підтримувати стабільну якість голосового зв’язку, ми інтегруємо кілька вдосконалених моделей перетворення тексту на мовлення (TTS), які постійно оптимізуються та оновлюються. Ці багатомовні механізми обробляють контент різними мовами з високою точністю. Ми також розгортаємо понад 100 нових голосових вібрацій, щоб надати користувачам ще більш виразні та природніші варіанти звучання. Щомісяця GSpeech генерує понад 200 мільйонів символів аудіо, обслуговуючи користувачів у понад 70 країнах, а наші онлайн-плеєри використовуються понад 200,000 XNUMX разів на місяць — і їх кількість зростає. Такий масштаб забезпечує постійний зворотний зв’язок та тестування в реальних умовах, що безпосередньо впливає на наші налаштування та контроль якості.
Чи можете ви розповісти нам, як GSpeech використовує штучний інтелект та машинне навчання для забезпечення реалістичного синтезу голосу? Як ви встигаєте за стрімким розвитком нейронних голосових технологій?
GSpeech використовує передовий штучний інтелект та машинне навчання, інтегруючи кілька найсучасніших моделей перетворення тексту на мовлення для створення реалістичного голосового синтезу. Ці моделі, оптимізовані для природності та багатомовної підтримки, обробляють текстові дані для створення високоякісного аудіо з реалістичною інтонацією та ритмом, навіть для контенту змішаною мовою. Ми покращуємо взаємодію з користувачем, пропонуючи налаштовувані стилі голосу для різних мов. Ми також інтегрували псевдоніми TTS, які дозволяють користувачам визначати власні правила для того, як певні слова або фрази відображаються в аудіо, наприклад, замінюючи певні терміни для досягнення точнішої вимови або фразування. Щоб бути в курсі розвитку нейронної голосової технології, ми постійно оцінюємо та інтегруємо останні досягнення, співпрацюємо з лідерами галузі та плануємо розробляти власні моделі в майбутньому, гарантуючи, що GSpeech залишатиметься на передовій інновацій у сфері голосового синтезу.
Наскільки важливими для ваших користувачів є налаштування голосу, регулювання висоти тону та налаштування відтворення, і в якому випадку використання ви найбільше пишаєтеся цими функціями, де вони справді сяють?
Налаштування голосу, керування висотою тону та налаштування відтворення є критично важливими для наших користувачів, дозволяючи їм створювати унікальні, високоякісні стилі голосу, адаптовані до їхніх конкретних потреб, від новинних веб-сайтів та блогів до доступного контенту для електронного навчання. Постійна інтеграція понад 100 нових голосових вібрацій ще більше посилює це, пропонуючи користувачам неперевершену гнучкість для створення справді самобутніх озвучок. Я найбільше пишаюся GSpeech Studio, новою платформою для редагування та генерації аудіо, яку я розробляю. Вона дозволяє користувачам створювати кілька аудіоканалів, змішувати їх з фоновою музикою та експортувати відшліфовані озвучки, що дає змогу творцям створювати аудіо професійної якості для різноманітних застосувань. Лист студента з вадами зору, в якому він дякує GSpeech за можливість самостійного навчання за допомогою налаштованого аудіо, глибоко зворушив мене. Цей приклад використання показує, як ці функції роблять контент доступним та трансформаційним, мета, до якої я прагнув з перших днів програмування.
GSpeech пропонує безперебійну інтеграцію з WordPress, Shopify, Wix та іншими. Якою була ваша стратегія, щоб зробити платформу plug-and-play для творців контенту та бізнесу в різних екосистемах?
Наша стратегія plug-and-play інтеграції GSpeech з такими платформами, як WordPress, Shopify та Wix, зосереджена на простоті, сумісності та масштабованості. Ми розробили легкі, модульні плагіни та фрагменти коду, які безперешкодно інтегруються, вимагаючи мінімального налаштування — часто лише кількох кліків. Це означає, що тисячі статей та блоків динамічного контенту можуть миттєво отримати голосову підтримку — без ручних зусиль. Ми пропонуємо дуже гнучкі, гарно оформлені плеєри, які адаптуються до різних пристроїв, включаючи мобільні телефони, планшети та настільні комп’ютери. Наші плеєри не тільки налаштовуються, але й оптимізовані для доступності та взаємодії з користувачами. Для WordPress ми вбудували хмарну панель інструментів GSpeech безпосередньо в панель адміністратора за допомогою нашого плагіна, що спростило керування для користувачів. Детальна документація та інтуїтивно зрозумілі панелі інструментів допомагають нетехнічним користувачам пройти процес встановлення та налаштування. Регулярне тестування забезпечує стабільну продуктивність у різних екосистемах, надаючи творцям і компаніям можливість легко додавати перетворення тексту в мовлення на основі штучного інтелекту.
Озираючись на шлях з 2012 року до сьогодні, яка була найбільша віха для вас особисто чи професійно у створенні GSpeech?
Найбільшою віхою для GSpeech стало створення 1 мільярда символів високоякісного штучного інтелекту аудіо, що демонструє наш глобальний вплив на доступність. Не менш значущими були відгуки, які ми отримали від таких організацій, як Humanity Union, які високо оцінили GSpeech за покращення їхньої платформи соціальної відповідальності, а також від власників блогів, які назвали її «революційним рішенням» для залучення користувачів. Понад 110 п’ятизіркових відгуків на різних платформах, таких як WordPress та AppSumo за останні місяці відображають цю зростаючу довіру.
GSpeech тепер також активно використовується Наманганський регіональний відділ статистики в Узбекистані — державна установа зі значним трафіком та національною видимістю. Те, що державний орган так широко впроваджує нашу технологію, стало важливою віхою та потужним знаком довіри до нашого рішення.
Як християнин і людина, яка служить у Вірменській церкві, я також намагаюся підтримувати інші релігійні ініціативи, коли це можливо. Я часто пропоную GSpeech безкоштовно християнським вебсайтам, щоб допомогти ефективніше поширювати їхнє послання та зробити Святе Письмо доступнішим через аудіо. Це мій маленький внесок у щось більше. Водночас для мене честь працювати з такими відданими служіннями, як Шнур — месіанська громада та цінний клієнт GSpeech, — чия місія та зміст відображають силу Святого Письма в дії.
Ці моменти — коли технології стають мостом до віри, розуміння та інклюзії — нагадують мені, чому ми взагалі створили GSpeech.
Яку роль, на вашу думку, відіграватиме GSpeech у майбутньому цифрових медіа, особливо враховуючи, що аудіоконтент та голосові інтерфейси стають дедалі домінантнішими?
Я бачу GSpeech як лідера у створенні більш доступних та захопливих цифрових медіа, забезпечуючи голосовий доступ до Інтернету на базі штучного інтелекту. Наша мета — повністю трансформувати онлайн-досвід, щоб веб-сайти стали природним чином інтерактивними, інклюзивними та багатомовними за замовчуванням. Лише одним рядком коду власники сайтів можуть перетворити тисячі статей на озвучений контент. Забігаючи вперед, ми розробляємо GSpeech Studio як потужну та унікальну платформу для генерації та редагування аудіо, що дозволить користувачам створювати багатошаровий голосовий контент з фоновою музикою, ефектами та точним налаштуванням. Ми хочемо зробити Інтернет справді чутним, інтуїтивно зрозумілим та універсально доступним.
GSpeech нещодавно запущено на AppSumo і вже отримав майже ідеальну оцінку від перших користувачів. Що для вас означає відгук спільноти AppSumo, і як ви плануєте розвивати цей імпульс у майбутньому?
Запуск AppSumo познайомив мільйони користувачів з GSpeech, і його майже ідеальний рейтинг неймовірно підтверджує це. Користувачі, такі як ті, хто проводить онлайн-курси, хвалять наші інтуїтивно зрозумілі інструменти та чуйну підтримку, повторюючи відгуки від Humanity Union. Власник блогу назвав наші голоси «справді захопливими», а переклади «вражаючими». Їхні позитивні відгуки підтверджують цінність нашого рішення для перетворення тексту в мовлення на базі штучного інтелекту та підживлюють мою пристрасть до проекту. Підтримка клієнтів під час запуску також спонукала до нових ідей, зокрема для GSpeech Studio, яка була натхненна запитами користувачів щодо розширених функцій редагування та експорту аудіо. Надалі я планую розвивати цей імпульс, активно прислухаючись до нашої спільноти, інтегруючи їхні відгуки та розробляючи інноваційні функції для покращення доступності та залучення, забезпечуючи подальший розвиток GSpeech як трансформаційного інструменту для творців та бізнесу.
І насамкінець, яку пораду ви б дали молодим розробникам або підприємцям, які хочуть створювати доступні інструменти на базі штучного інтелекту в сучасному швидкозмінному технологічному середовищі?
Молодим розробникам і підприємцям моя порада — вкладати душу в свою роботу та визначати реальну проблему, для якої ви можете запропонувати унікальне, розумне рішення. Почніть з малого, робіть впевнені кроки вперед і уважно прислухайтеся до відгуків клієнтів — вони скерують ваш шлях. Ставтеся до своїх користувачів як до надійних друзів, віддавайтеся на повну та будьте терплячими. Використовуйте технології штучного інтелекту як потужних союзників; за умови розумного використання вони посилюють вашу здатність створювати ефективні та доступні інструменти. Створюйте з пристрастю, наполегливістю та прагненням змінити світ на краще, і ви створите рішення, які справді мають значення.
Спасибі Антуан Тардіф для інтерв'ю. Ви можете прочитати повне інтерв'ю тут: unite.ai.