Voice commerce: wyszukiwanie i zakupy głosowe

Popularność wyszukiwania bez użycia klawiatury dynamicznie wzrasta w ostatnich latach, przez co sposób, w jaki użytkownicy poszukują informacji i konsumują treści w sieci, ulega zmianom. Voice search to narzędzie wykorzystujące rozpoznawanie mowy do przeszukiwania Internetu bądź samego urządzenia. Chociaż spore zainteresowanie budzi od niedawna, to sama dziedzina nowością nie jest.

Początki wyszukiwania głosowego sięgają lat 50 XX wieku. Wtedy to firma Bell Labs skonstruowała Audrey – pierwszą maszynę rozpoznającą głos. Ta potrafiła rozpoznać liczby od zera do dziewięciu z dokładnością 90%. Biorąc pod uwagę możliwości obliczeniowe ówczesnych komputerów, stanowiło to nie lada osiągnięcie. Dziesięć lat później w 1961 roku inżynier IBMu William C. Dresch stworzył system rozpoznający głos o nazwie Shoebox. Ten rozróżniał już 16 słów oraz dziesięć cyfr w języku angielskim. Maszyna została oficjalnie zaprezentowana w 1962 roku na targach w Seattle. Swoją nazwę zawdzięcza rozmiarom, jakie zajmowała – wielkości pudełka na buty. Te osiągnięcia dały początek rozwojowi wyszukiwania głosowego, z jakim mamy do czynienia w obecnie.

I tak pięćdziesiąt lat później, w 2011 roku, zadebiutowała Siri – asystentka głosowa od Apple’a, w 2012 wydany dla Androida Google Now, a w 2016 roku asystent głosowy Google. Chociaż technologia rozpoznawania głosowego nie stanowi szczególnej innowacji, to pojęcie voice commerce, czyli zakupów głosowych, jest stosunkowo nowe. Konsumenci dopiero zaczynają regularnie korzystać z poleceń głosowych, inni jeszcze opierają się testowaniu możliwości, jakie dają zakupy konwersacyjne. Faktem jednak jest, że zainteresowanie urządzeniami sterowanymi głosowo dynamicznie rośnie. Ponieważ na rynku pojawia się coraz więcej inteligentnych głośników, a algorytmy są nieustannie ulepszane, trend ten będzie tylko nabierać tempa. 

Korzyści jest wiele, należą do nich między innymi: wygoda, dostępność i szybkość interakcji. Ponad 40% dorosłych używa wyszukiwania głosowego przynajmniej raz dziennie. Najczęściej użytkownicy proszą asystenta o włączenie muzyki, znalezienie odpowiedzi na pytanie dotyczące wiedzy popularnonaukowej, informacje pogodowe, ustawienie alarmu lub przeczytanie najważniejszych informacji z kraju i ze świata. Asystenci głosowi towarzyszą również podczas zakupów. Częściej przy wybieraniu produktów i śledzeniu statusu przesyłki, niż przy finalizacji transakcji. Temat voice commerce, zwanego również voice shopping, jeszcze raczkuje. Prognozuje się, że w przeciągu 3 najbliższych lat sposób robienia zakupów w sieci ulegnie sporym zmianom.

Przejście wyszukiwania głosowego z niszy do mainstreamu

Kiedy w 2011 roku debiutowała Siri, na fali wielkiego boomu technologicznego, wyszukiwanie głosowe było traktowane bardziej w kategoriach kolejnej nowinki. Szybki rozwój technologii mobilnych i rozpoznawania mowy sprawił, że voice search zaczyna być istotnym elementem marketingu w wyszukiwarkach.

  • 60% użytkowników smartfonów przynajmniej raz skorzystało z funkcji wyszukiwania głosowego w przeciągu ostatnich 12 miesięcy.
  • Smartfony królują jeżeli chodzi o zapytania głosowe, za nimi plasują się komputery i laptopy, tablety oraz inteligentne głośniki.
  • Zapytania głosowe są dłuższe od tych wpisywanych w pasku wyszukiwania, zazwyczaj składają się z 3 do 5 słów.
  • 20% zapytań głosowych składa się z 25 słów.
  • Globalnie mobilne wyszukiwanie głosowe cieszy się największą popularnością w krajach azjatyckich, takich jak: Indonezja (38%), Chiny (36%) i Indie (34%).
  • Wyszukiwania głosowe na urządzeniach mobilnych częściej będą dotyczyć usług lokalnych.
  • Obecnie 25% zapytań na urządzeniach z Androidem jest głosowych.
  • 20% wyszukiwań na urządzeniach mobilnych jest głosowych.
  • Powodem, dla którego użytkownicy cenią sobie wyszukiwanie głosowe, jest wielozadaniowość, tzw. multitasking. Większość zapytań pada w trakcie wykonywania innych czynności, np.: jazda samochodem, oglądanie TV, czy gotowanie.
  • Czas ładowania strony jest istotnym czynnikiem dla zapytań głosowych.
  • HTTPS jest jednym z czynników mających wpływ na wysoką pozycję w wynikach wyszukiwania głosowego (ponad 70% wyników posiada protokół HTTPS, w porównaniu z 50% wyników wyszukiwania tekstowego). 
  • Obecnie na rynku jest dostępnych 39 aplikacji wspierających zakupy głosowe.

Naturalne interakcje z asystentami nadają im wiarygodności, wzbudzają zaufanie i mają osobisty charakter.

  • Konwersacje z urządzeniem przeprowadzane są jak z człowiekiem, często w rozmowach padają słowa “Proszę”, “dziękuję”, jak również “przepraszam”.
  • 52% posiadaczy inteligentnych głośników chętnie usłyszy o promocjach i ofertach, 48% ucieszy się ze spersonalizowanej porady lub informacji, a 42% dowie się o nadchodzących wydarzeniach w pobliżu.
  • 33% posiadaczy asystentów głosowych twierdzi, że dokona zakupu głosowego w przeciągu najbliższych 12 miesięcy.
  • Obecnie zakupy głosowe dotyczą produktów o niskiej wartości. 
  • Ponad 65% zapytań głosowych odnosi się do lokalnych usług (wyszukanie restauracji/ kawiarni, natężenie ruchu, zarezerwowanie miejsca). 

Najmłodsze pokolenia dyktują trendy, ale wyszukiwanie głosowe znajduje również uznanie w grupie starszych odbiorców. Małe ekrany i klawiatury nie są szczególnie wygodnymi urządzeniami do obsługi dla osób starszych, słabiej widzących i z niepełnosprawnościami. Rozmowy z asystentami dla tych grup odbiorców będą stanowić wygodniejszą alternatywę, która może stać się głównym sposobem korzystania z urządzeń mobilnych. Ma to znaczenie, ponieważ generacja Boomersów czynnie korzysta z zakupów online. Największe koncerny skupiają się na rozwijaniu technologii głosowych, ponieważ po pojawieniu się ekranów dotykowych, wyszukiwanie głosowe jest traktowane jako kolejny krok milowy, który w znaczący sposób wpłynie na zachowania konsumentów.  

  • 55% nastolatków i 45% dorosłych korzysta z wyszukiwania głosowego przynajmniej raz dziennie.
  • Mężczyźni na ogół chętniej korzystają z asystentów głosowych, również w przestrzeni publicznej.
  • 61% mężczyzn i 50% kobiet korzysta z wyszukiwania głosowego na smartfonach.
  • Wyszukiwanie głosowe cieszy się największą popularnością wśród generacji Z. Ponad 65% przyznaje, że korzysta z asystenta głosowego przynajmniej raz dziennie, 45% Millenialsów, 43% pokolenia X, i ku zaskoczeniu niektórych, 49% Boomersów.
  • Osoby po 50 roku życia używające wyszukiwania głosowego, przyznają, że czują się pewniej, korzystając z asystentów głosowych, ze względu na bardziej ludzką relację z technologią.

Globalnie sprzedaż inteligentnych głośników rośnie w zaskakującym tempie.

  • W 2019 roku łącznie sprzedano 146,9 mln inteligentnych głośników, o 70% więcej niż w 2018. Przoduje Amazon ok. 28% udziału w rynku, na drugim miejscu znajduje się Google (ok. 25%), trzecie należy do chińskiego Baidu (niecałe 11%). 
  • Szacuje się, że do 2024 roku globalnie rynek inteligentnych głośników będzie wart 30 miliardów dolarów. 
  • Echo Dot, inteligentny głośnik Amazona, w 2018 roku był najlepiej sprzedającym się produktem na platformie amazon.com.
  • Przewiduje się, że w 2020 roku ok. 30% wyszukiwań w Internecie będzie pochodziło z zapytań głosowych.
  • Ponad 50% inteligentnych głośników znajduje się w przestrzeni wspólnej, takiej jak salon, czy pokój dzienny, 25% w sypialni, a 22% w kuchni.
  • Popularność asystentów głosowych: (Google Home, Amazon Echo/Alexa, Google Assistant, Siri, Microsoft Cortana).
  • Wśród dostępnych na rynku urządzeń najlepszym słuchaczem jest Siri/HomePod, będąca w stanie zrozumieć 99,4% zapytań, głównie dzięki funkcji redukcji szumów, natomiast wskaźnik trafności odpowiedzi wynosi nieco ponad 50%.
  • Google Home zajmuje pierwsze miejsce, jeżeli chodzi o poprawność udzielanych odpowiedzi na zadane pytanie, trafność wynosi ponad 80%.

Skąd rosnąca popularność wyszukiwania głosowego?

Mówimy szybciej, niż piszemy. W przeciągu minuty jesteśmy w stanie wypowiedzieć od 125 do 170 słów. W tym samym czasie możemy napisać około 40 słów. W 2018 roku Virgin Trains w Wielkiej Brytanii wprowadził głosową sprzedaż biletów za pośrednictwem Alexy. Przeciętny czas zakupu biletu został zredukowany z 7 minut do 2. Opcja dokonania szybszego i wygodniejszego zakupu zawsze jest postrzegana jako ukłon w stronę klienta.

Wyszukiwanie głosowe przebiega bez zakłóceń. Bez względu na to jak bardzo user-friendly zostanie zaprojektowana nasza aplikacja, czy strona internetowa i bez względu na to jak mocno uwaga zostanie skoncentrowana na konwersji, zawsze występują zakłócenia spowodowane samym sposobem korzystania z urządzenia. Aby “dostać się” do danej strony, czy aplikacji konsument musi wykonać następujące kroki:

Dopiero wtedy możliwe jest rozpoczęcie korzystania ze starannie zaprojektowanego interfejsu. Przy wyszukiwaniu głosowym ta ścieżka się skraca, możliwość wywołania aplikacji głosem i jej sterowania sprawia, że użytkownik napotyka mniej barier. Przez to jest mniej sfrustrowany, a jego doświadczenie bardziej przyjazne.

Dłuższe zapytania i przejście do konwersacji

Frazy tekstowe najczęściej składają się z dwóch słów kluczowych, pytania głosowe są już znacznie dłuższe. 20% zapytań głosowych składa się z 25 słów, a przeciętnie są to 4 wyrazy. Szukając dobrej pizzerii w okolicy, w wyszukiwarce wpiszemy “włoska pizzeria”. Dla wyszukiwania głosowego ta kwestia będzie brzmiała inaczej: “OK Google, znajdź dobrą włoską pizzerię”. Sposób formułowania zapytań będzie miał ogromne znaczenie dla doboru słów kluczowych. Oprócz tradycyjnego zwracania, uwagi na parametry takie jak liczba wyszukiwań, CPC czy sezonowość, konieczne będzie uwzględnienie konwersacyjnego charakteru. Innymi słowy, naturalnie brzmiące słowa kluczowe odnotują duże wzrosty w rankingach w miarę rozwoju wyszukiwania głosowego.

Drugą kwestią wpływ wyszukiwania głosowego na otrzymywane wyniki. Google zmienia się z wyszukiwarki internetowej w narzędzie dające gotowe rozwiązania. Wprowadzone do SERPów funkcjonalności takie jak grafiki i polecane fragmenty odpowiedzi, przyczyniły się do spadku kliknięć w wyszukiwania organiczne o 37%. Powód jest prosty: nie ma potrzeby wchodzenia na stronę, by uzyskać informację. Ta sama technologia, skupiona na podawaniu gotowych odpowiedzi, jest wykorzystywana przy wynikach wyszukiwania głosowego. Chcąc dowiedzieć się, ile kalorii ma pączek, wpisując zapytanie w wyszukiwarce, otrzymamy 10 wyników. Pytając asystenta, w przeciągu kilku sekund uzyskamy konkretną odpowiedź. Ta najprawdopodobniej zostanie przeczytana z pierwszego polecanego fragmentu.

Przyszłość Voice Commerce i wyzwania 

Rozumienie intencji pytającego dzięki machine learning

Rozwój sztucznej inteligencji oraz machine learning ma ogromny wpływ na szybkość zachodzących zmian, nasze interakcje z inteligentnymi urządzeniami i wyniki wyszukiwania w Internecie. Idealnym przykładem będzie Google RankBrain, który jest częścią podstawowego algorytmu Google. Wykorzystuje on zdolność do uczenia się na podstawie danych wejściowych, w celu ustalenia najlepszych wyników dla zapytań wyszukiwarek.

Wcześniej Google wykorzystywał swój podstawowy algorytm do ustalenia, które wyniki mają być wyświetlane dla zapytania. RankBrain zmienił sposób indeksowania. Obecnie kwerenda przechodzi przez model interpretacji, który uwzględnia dodatkowe czynniki, takie jak lokalizacja wyszukiwarki, personalizacja i słowa kluczowe w celu ustalenia adekwatnych zapytań. Rozpoznając “prawdziwy” zamiar wyszukiwania, Google zapewnia bardziej trafne wyniki. Zastosowanie machine learning w RankBrain wyróżnia go spośród innych aktualizacji. Aby „nauczyć” algorytmu RankBrain pokazywania najlepszych wyników wyszukiwania, Google najpierw „serwuje” dane pochodzące z różnych źródeł. Następnie na podstawie dostarczonych danych algorytm oblicza i uczy się dopasowania różnych sygnałów do ​​różnych wyników. W konsekwencji porządkuje je w rankingu wyszukiwarki na podstawie swoich kalkulacji.

Gdy RankBrain napotyka frazę, o której nigdy wcześniej nie słyszał, właściwie „zgaduje” jej znaczenie i intencje wyszukiwania, a następnie wyświetla odpowiednio dopasowane odpowiedzi. Dzięki machine learning ta zdolność „myślenia” sprawia, że RankBrain, dobrze się spisuje w obsłudze nieoczekiwanych zapytań. Zdolności RankBrain są żywym przykładem na to, jak szybko komputery są w stanie zaimplementować ludzkie zachowania w sieci jak i lepiej je przewidzieć. W najbliższym czasie należy się spodziewać jeszcze lepszego rozumienia zapytań głosowych przez algorytmy Google i wyższego poziomu zaawansowania podawanych odpowiedzi.

Projektowanie doświadczeń głosowych

Voice User Interface (VUI) jest stosunkowo nową dyscypliną w świecie UX, ze względu na rosnącą popularność asystentów głosowych, szybko rozwijającą. Warto zapoznać się z podstawowymi regułami, którymi rządzi się projektowanie głosowe dla jego lepszego zrozumienia i w konsekwencji lepszego dopasowania swoich działań w obszarze voice search. 

Projektując interfejsy głosowe (Voice User Interface), należy mieć na względzie sześć głównych aspektów, które opierają się na fundamentach konwersacji i służą podtrzymaniu dialogu, jak również pomagają projektantom poruszać się w zorientowanych na człowieka interfejsach.

Osobowość Voice User Interface

Każdy głos odzwierciedla osobowość, bez względu na to czy jej postać została uwzględniona na etapie projektowania, czy nie. Projekty, w których persona VUI została pozbawiona unikatowych cech, gdzie poziom interakcji jest niski, bardzo maszynowy, są oceniane jako nudne, nieprzyjazne i niepomocne. Gdy brakuje im pierwiastka ludzkiej interakcji, która jest szalenie ważnym czynnikiem przy ocenie przydatności i wiarygodności asystenta, szybko są odrzucane przez użytkowników.

W 1975 grupa nauczycieli została zaproszona do udziału w badaniu (Giles & Powesland). Poproszono ich o ocenę ośmiu fikcyjnych uczniów na podstawie trzech elementów: próbki pracy pisemnej, zdjęcia i próbki nagranej wypowiedzi. Wyniki były zaskakujące – pozytywne wrażenia wywołane przez próbkę mowy, przysłoniły negatywną oceną pracy pisemnej, jak i fotografii. W przypadku negatywnego odbioru wypowiedzi studenta, pozytywne oceny z pozostałych dwóch źródeł zostały przyćmione.

Inne badania wykazały, że  oceniamy ludzi pod względem życzliwości, uczciwości, wiarygodności, inteligencji, poziomu wykształcenia, punktualności, hojności, bycia romantycznym, bycia „uprzywilejowanym” i przydatności do pracy na podstawie tego, w jaki sposób się wypowiadają. W skrócie: mowa ma moc!

Nie należy pozostawiać swojej osobowości VUI przypadkowi. Już na wczesnym etapie projektowania konieczne jest stworzenie persony – idealnego pracownika, który będzie reprezentował markę. Należy zadać sobie pytania: Jaki on jest? Jak powinien brzmieć? Oraz jak powinien się zachowywać? Charakter tej persony będzie fundamentem, decydującym o sukcesie lub porażce projektu.

Podtrzymanie rozmowy

W codziennych rozmowach pada wiele pytań, które wymagają krótkich odpowiedzi “tak” lub “nie”, ale w rzeczywistości zadawane są, by uzyskać dodatkowe informacje. Zgodnie z zasadami podtrzymania rozmowy mówca dostarcza słuchaczowi dostateczną ilość informacji, aby osiągnąć interakcję. Aby interakcja była satysfakcjonująca, rozmowa musi być przesuwana powoli do przodu. I tutaj asystenci muszą posiadać inteligencję społeczną, jeżeli zostali zaprojektowani w taki sposób, aby identyfikować proste odpowiedzi, należy nauczyć ich, w przypadku braku rozpoznania słowa klucza, odpowiedniego reagowania. Najczęściej w przypadku błędnego rozpoznania, użytkownicy potrzebują prostego naprowadzenia, “przepraszam, czy możesz powtórzyć liczbę osób?”, zamiast maszynowego “przepraszam, nie zrozumiałem. Podaj teraz liczbę osób, może to być np.: dwa”. Kluczowy jest tutaj dla asystenta moment, w którym może on kontynuować rozmowę, oferując dodatkowe informacje i rozpoznając istotne odpowiedzi użytkowników. To, co przez branżę nazywane jest “błędem rozpoznania”, w rzeczywistości jest wynikiem impulsu stanowiącego wkład informacyjny.

Rzeczowość i istotność 

W odróżnieniu od słowa pisanego mowa jest nierozerwalnie związana z upływem czasu. Im dłużej ktoś przemawia, tym więcej pracy umysłowej narzuca słuchaczowi. Ludzki umysł ma swoje ograniczenia i jest w stanie przetwarzać informacje do momentu, kiedy te nie staną się nadmiernym obciążeniem dla pamięci krótkotrwałej. Słuchanie uważane jest za umiejętność „pasywną”, w przeciwieństwie do mówienia, które określane jest jako bardziej „aktywne” i „produktywne”. W rzeczywistości słuchanie wymaga zaangażowania sporej energii i skupienia. Dlatego ważne jest, aby VUI dawało słuchaczowi przerwę i pozwoliło mu na zamianę ról, czyli na bycie mówcą. W przeciwieństwie do graficznej prezentacji nieistotne informacje przekazywane głosowo stają się szczególnie uciążliwe, dlatego angażowanie użytkowników w wysłuchiwanie nieistotnych informacji z punktu widzenia słuchacza jest głównym czynnikiem, dla którego będą odrzucać pomoc asystentów głosowych. 

Dla przykładu: użytkownika nie interesuje numer rejsu, jedynie godzina i miejsce odjazdu autokaru oraz cena biletu. Ważne jest, aby asystent podawał informacje istotne z punktu widzenia użytkownika. Wielu projektantów VUI popełnia ten błąd, tworząc tym samym negatywne doświadczenie użytkownika z asystentem. Badania dowodzą, że jeżeli VUI nie stanowi znaczącej przewagi nad alternatywnymi sposobami wykonania danej czynności, użytkownicy nie będą z niego korzystać. Ludzie z natury są leniwi, technologia ma upraszczać i skracać codzienne czynności, jeżeli te warunki nie zostaną spełnione, wybiorą ostatni zadowalający sposób, który doprowadził ich do osiągnięcia pożądanego efektu. Podsumowując: informacje powinny być krótkie i rzeczowe, nie należy wdawać się w szczegóły, dopóki użytkownik o nie nie poprosi.

Kontekst wypowiedzi 

Dobra rozmowa cechuje się odniesieniem do poprzednich interakcji oraz świadomości, w jakich okolicznościach znalazła się dana osoba. Podobnie jest z projektami VUI, powinny w jak największym stopniu wykorzystywać kontekst użytkownika. Jeśli zostały powierzone interfejsowi konkretne informacje, asystent powinien odpowiedzieć na podstawie tego, co ostatnio użytkownik robił, co już wie i co zostało powiedziane wcześniej w oknie dialogowym. Kontekstowe zaniedbania skutecznie podważają sposób postrzegania inteligentnego asystenta. W tej branży dużo mówi się o personalizacji, sztucznej inteligencji i innowacjach opartych na danych. Ale to projekty, które śledzą rozmowę i pozostają „świadome” kontekstu użytkownika, skutecznie zwiększą postrzeganie ludzkiej inteligencji.

Koncentracja uwagi na słowach

VUI musi być świadome tego, co zostało powiedziane. Ma to kluczowe znaczenie dla ustalenia, w jaki sposób powinny być zorganizowane kolejne wiadomości. Brak takiego „śledzenia” obciąża proces rozumienia przez słuchacza i stwarza dyskomfort. Chodzi o tak zwany End-Focus. Zgodnie z tą zasadą konwersacji użytkownicy podświadomie oczekują pewnego sposobu ułożenia informacji w wypowiedzi. „Nowa” informacja domyślnie powinna pojawić się na końcu zdania i zostać zaakcentowana, a „stara” informacja go poprzedza. Przykład: “Zrób rezerwację na piątek 16 marca” “przepraszam, piątek wypada 15.”. Tutaj piątek jest “starą” informacją, a data nową, dlatego jest umieszczana na końcu zdania.

Naruszenie zasady End-Focus powoduje nadmierne tarcia w interakcji. Mając na względzie oczekiwania użytkowników co do tego, jaką strukturę powinny mieć informacje, UI będzie nie tylko bardziej intuicyjne, ale również będzie stanowiło dodatkową korzyść w potwierdzeniu, że VUI trafnie usłyszał i zrozumiał odbiorcę. Tutaj złotą zasadą będzie umieszczenie “starej” informacji przed “nową” dla maksymalizacji zadowolenia użytkownika. Nada to konwersacyjnego charakteru wypowiedzi toczącej się pomiędzy asystentem a pytającym.

Nie polecenia, a mowa intuicyjna

Chodzi o całkowite wyeliminowanie poleceń. Jeżeli asystent zostaje zmuszony do wydawania poleceń, oznacza to, że gdzieś został popełniony błąd. W projektowaniu VUI nie powinny znaleźć się polecenia znane z infolinii, takie jak: “, aby uzyskać więcej informacji, wybierz 1”. Zamiast tego interfejs powinien zadać naturalnie brzmiące pytanie “, czy chcesz dowiedzieć się więcej?”. W momencie wystąpienia polecenia, projektant powinien wrócić do szkicu VUI i go zastąpić konwersacyjnym charakterem wypowiedzi. Wraz z pojawieniem się chatbotów, asystentów i aplikacji, które rewolucjonizują wiele aspektów naszego życia, projektanci i marketerzy dostają możliwość kreatywnego popisania się i dowiedzenia, że rozmowa jest kluczem do osiągnięcia sukcesu. 

Konstruktywny dialog jest potężnym środkiem komunikowania się. Wyrazem totalnej ignorancji byłby brak dopasowania interakcji do powszechnie obowiązujących reguł. Pierwszym krokiem w budowaniu świadomości technicznej, jest zrozumienie, czym tak naprawdę jest rozmowa.

Wyzwania stojące przed implementacją wyszukiwania głosowego do świata e-commerce

Najważniejsze wyzwania, jakie będą stały przed projektantami oraz specjalistami zajmującymi się wdrażaniem strategii voice commerce, aby przebiegała ona sprawnie i bez zakłóceń, to:

  • Ograniczenia językowe

Każda barwa i ton głosu jest unikatowa, sztuczna inteligencja musi umieć rozpoznawać akcenty oraz sposoby intonacji. Przed deweloperami stawiane jest wyzwanie ciągłego doskonalenia funkcji językowych. Obecnie język angielski jest najlepiej rozpoznawalnym językiem w świecie technologii, a asystenci są dostępni w coraz większej liczbie krajów. To wymaga ciągłej pracy nad udoskonaleniem umiejętności językowych asystentów w obcych językach, aby nadążyć za popytem.

  • Ludzkie interakcje i empatia

Poza barierami językowymi, kolejnym wyzwaniem jest zaprojektowanie “ludzkich” interakcji, czyli jak najbardziej naturalnych i intuicyjnych. Rozwiązanie tego problemu będzie miało ogromny wpływ na zaufanie konsumenta do technologii oraz wpłynie na wykorzystanie wyszukiwania głosowego w skali globalnej. Tutaj właśnie ważne jest poznanie i właściwe wdrożenie zasad Voice User Interface.

  • Niski poziom rzetelnych informacji

Na rynku informacje o możliwościach asystentów głosowych w dalszym ciągu nie są jeszcze dobrze znane większości konsumentów. Wielu z nich nie korzysta z asystentów, bądź ich nie kupuje, ponieważ żyją w przekonaniu, że ich poziom możliwości jest znikomy. Konsumenci nie posiadają wiedzy o tym, co może zrobić asystent głosowy, jak z niego korzystać i czy istnieje związane z użytkowaniem ryzyko.

  • Brak zaufania

Konsumenci, którzy robili zakupy z wykorzystaniem asystenta głosowego, przyznają, że najczęściej korzystają z nich dla ponownego zamówienia tego samego koszyka. Obecnie voice commerce dotyczy zakupu produktów o niskiej wartości i szybko zbywalnych, ponieważ nie ufają oni technologii w kwestii obsługi większych i bardziej złożonych zamówień.

  • Kwestie prywatności 

Przepisy dotyczące przetwarzania danych osobowych, takie jak ogólne rozporządzenie UE o ochronie danych (RODO), które weszły w życie w maju 2018 r., w podobnej postaci zaczynają obowiązywać na całym świecie. Prowadzą one do dyskusji na temat ochrony danych w sieci, a to z kolei przekłada się na większą liczbę konsumentów uświadamiających sobie potrzebę ochrony danych online.

Dotyczy to zarówno sektora B2C, jak i B2B, które muszą zapewnić prywatność w domach i w sieci. Wprowadzający voice commerce będą musieli opracować rozwiązanie wykorzystujące wyłącznie informacje niezbędne do przeprowadzenia bezpiecznego procesu zakupów. To na przedsiębiorcach spoczywa odpowiedzialność za prawidłowy proces informacyjny konsumentów i zapewnienie bezpieczeństwa podczas zakupów głosowych.

Przyszłość voice commerce

Kiedy bariery zostaną pokonane, potencjał voice commerce zmieni nawyki konsumentów. Według danych Google 20% wyszukiwań pochodzi z zapytań głosowych. Ze względu na lepiej rozwinięte rozumienie języka angielskiego przez sztuczną inteligencję w Stanach Zjednoczonych odsetek ten wynosi już 42,7%. Przewiduje się, że w 2020 roku odsetek zapytań głosowych wyniesie połowę, a zakupy głosowe będą dotyczyły nie tylko zapytań online, ale również zakupów stacjonarnych.

Przykład:

The Mars Agency w Stanach Zjednoczonych testowała asystenta głosowego o nazwie SmartAisle w sklepach BevMo!. Asystent pomaga klientom podjąć decyzję, którą whisky wybrać. Jak działa? Wspierany przez Amazon Echo – SmartAisle – jest instalowany na podświetlanym regale z whisky. Klienci mogą poprosić o pomoc przy wyborze trunku. SmartAisle jest w stanie udzielić informacji o wybranych rodzajach whisky i prowadzi klienta przez proces decyzyjny. Każda butelka na regale jest podświetlana, wraz z postępem rozmowy, asystent zaczyna zawężać wybór, światła pod wykluczonymi whisky zostają przygaszone. W wyniku rozmowy klient zostaje z jedną butelką whisky podświetloną na półce. Bree Glaeser, dyrektor ds. Innowacji w The Mars Agency, powiedział: „Ludzie nie zawsze chcą iść z opinią sprzedawcy, poszukują informacji opartych na faktach, nie koniecznie indywidualnych preferencjach”. SmartAisle nie tylko angażuje klientów w sklepie, ale zamienia poszukujących w kupujących. Sklepy, w których został wdrożony asystent głosowy, odnotowały wzrost sprzedaży i spotkały się z pozytywnym odbiorem wśród konsumentów. 

Szanse dla B2B

Voice commerce stanowi spory kawałek tortu dla firm B2B. Potrzeba ciągłego doskonalenia ścieżek zakupowych i tworzenia jak najlepszego doświadczenia konsumenta, by utrzymać klientów i wyprzedzić konkurencję. Pionierzy wdrażający nowe technologie, takie jak voice commerce będą w stanie zapewnić swoim partnerom innowacyjne, proste i niezapomniane doświadczenia online i offline.  

Voice commerce w Polsce 

Polska wersja Asystenta Google zadebiutowała na początku 2019 roku. Google posiada największą bibliotekę języków swojego asystenta i jest jedynym, który obsługuje w języku polskim. Najnowsze analizy Salesforce mówią, że obecnie 9% zakupów jest dokonywanych za pomocą nowych kanałów sprzedaży i technologii. Jest to tak zwane „shopping at the edge”, czyli zakupy poza utartymi kanałami, przy wsparciu m.in. mediów społecznościowych, komunikatorów i asystentów głosowych.

Według raportu UKE z telefonu komórkowego w Polsce korzysta 93% społeczeństwa, 9% posiada telefon stacjonarny. 72,7% badanych korzysta z Internetu, 90,7 % badanych łączy się za pośrednictwem sieci komórkowej. 66,7% Polaków posiada internet stacjonarny, a 22,7% korzysta z sieci mobilnej na urządzeniach innych niż smartfon. 75% Polaków posiada smartfon, a 24,3% posiada tradycyjny telefon komórkowy. 90,7% Polaków korzysta z Internetu w telefonie. Smartfony i internet mobilny dominują nasze życie, są pierwszym narzędziem do poszukiwania informacji, również tych lokalnych, korzystania z mediów społecznościowych, czy porównywania ofert i robienia zakupów.

W badaniu przeprowadzonym przez Reichelt Elektronik zapytano 1000 ankietowanych, czy i w jaki sposób używają asystentów głosowych. 87% respondentów przyznało, że skorzystało z asystenta głosowego za pośrednictwem smartfona, 4% wchodzi w interakcję z asystentem głosowym za pośrednictwem głośnika, a 9% korzysta z obu rozwiązań. Na polskim rynku rządzi Google Assistant, 42% badanych ufa jego asystentowi głosowemu. 7% korzysta z usługi Siri, a ok. 1% z Alexy.

Najczęściej badani korzystają z asystentów do wyszukiwania w Internecie, aż 74%, 49% odtwarza muzykę z pomocą asystenta, 54% używa ich do czytania wiadomości, 31% ankietowanych zleca asystentowi sprawy organizacyjne, 19% przyznaje, że dokonywało zakupów żywności lub towarów. 12% badanych steruje sprzętem AGD w domu, a jedynie 5% otwiera przy pomocy asystenta drzwi wejściowe. 

Co ciekawe, 44% respondentów nie rozważa zakupu inteligentnego głośnika, 65% stwierdzając, że go nie potrzebuje. Połowa badanych wyraziła obawy dotyczące bezpieczeństwa, 42% obawia się, kradzieży lub niewłaściwego wykorzystania danych, jak również tego, w jaki sposób dane będą przechowywane, 30% obawia się bycia podsłuchiwanym, a 38% ryzyka ataku hakerskiego. Poza tym aż 38% ankietowanych uważa za problem przypadkową aktywację asystenta przez nieprawidłowo zrozumiane polecenie (w tym również wydawane przez dzieci).

Voice commerce w na polskim rynku

Asystent głosowy Google będzie dążył do zapewnienia pełnej obsługi zakupów realizowanych w Internecie. Pierwszymi partnerami Google w zakresie wdrażania voice commerce w Polsce zostały Pyszne.pl i Flixbus.

Pakiet narzędzi stworzonych i udostępnionych przez Google ma zastosowanie w całym procesie zakupowym. Każdy użytkownik Asystenta Google może skorzystać z komendy głosowej zdefiniowanej przez firmę, by wejść w interakcję z marką. Szczegółowy przebieg transakcji w przypadku Pyszne.pl do obsługi głosowej, wymaga wcześniejszego ręcznego skonfigurowania w aplikacji. Interakcja z Asystentem Google pozwoli dokonać wyboru jednego z wcześniej zdefiniowanych zestawów i zakończy się zamówieniem z płatnością przy odbiorze. Pyszne.pl podkreśla, że usługa będzie rozwijana w oparciu o uwagi użytkowników. 

Flixbus natomiast zdecydował się na kompleksową obsługę głosową wyszukiwania oraz dokonywania rezerwacji. Również obsługę płatności kartą VISA lub Mastercard powiązaną z usługami Google Pay. Transakcja ma być autoryzowana odciskiem palca lub wpisywanym hasłem (w zależności od preferencji użytkownika). Przez asystenta można sprawdzić dostępne przejazdy, status rezerwacji oraz uzyskać odpowiedzi na najczęściej zadawane pytania. Usługa jest dostępna w czterech językach: angielskim, polskim, francuskim i niemieckim. 

Zarówno dla pyszne.pl, jak i dla Flixbusa, Polska jest pierwszym krajem, w którym wprowadzona została obsługa zamówień głosowych z wykorzystaniem Asystenta Google. Opcja ta ma być z czasem udostępniana w innych krajach. Wcześniej podobną współpracę Google ogłosiło z amerykańską siecią handlową Walmart.

We wrześniu 2019 roku frisco.pl wprowadziło możliwość robienia zakupów przy pomocy Asystenta Google. Wychodząc naprzeciw prognozom dotyczącym przewidywanego 10-krotnego wzrostu zakupów głosowych w przeciągu najbliższych 3 lat, firma już teraz zdecydowała się wdrożyć nowy kanał kontaktu z klientem. W pierwszej kolejności zakupy głosowe zostały uruchomione dla klientów posiadających już historię zakupów. Zarówno poprzez aplikację, jak i z poziomu komputera możliwe jest zarezerwowanie terminu dostawy. Przy otwarciu wcześniejszego koszyka, asystent odczyta jego zawartość. Użytkownik może dokonać jego modyfikacji: dodać, usunąć lub zmienić liczbę produktów. W przypadku wyboru dodatkowych towarów asystent przedstawi klientowi aktualne promocje. Po skompletowaniu zamówienia, asystent odczyta listę zakupów, a użytkownik sfinalizuje zamówienie poprzez jego akceptację. Oprócz tego asystent będzie w stanie odpowiedzieć na 20 najczęściej zadawanych pytań. Jeżeli problem nie zostanie rozpoznany, użytkownik zostanie przekierowany na stronę sklepu, gdzie będzie mógł skontaktować się z działem obsługi klienta.

Kolejnym wdrażającym wyszukiwanie głosowe jest polski gigant obuwniczy CCC, który jako pierwszy podmiot w Polsce z sektora mody, uruchomi dla klientów usługę Asystent Głosowy CCC w Google. „Porozmawiaj z CCC” – tyle wystarczy, aby uruchomić asystenta. Wirtualny doradca pomoże klientom przeszukiwać produkty na podstawie wybranych filtrów (np.: kategoria, marka, kolor, cena czy cechy szczególne), wskaże najbliższy sklep CCC i udzieli informacji o aktualnych promocjach w Klubie CCC. Na bieżąco mają być dodawane nowe funkcjonalności, a cała usługa konsekwentnie rozwijana. Na obecnym etapie projektu nie ma możliwości dokonywania bezpośrednio zakupów za pomocą komend głosowych. W planach spółki jest nie tylko pełna obsługa procesu zakupowego online, ale również możliwość sprawdzenia dostępności konkretnych modeli w wybranym sklepie stacjonarnym. Choć polski rynek znajduje się na wczesnym etapie rozwoju w obszarze voice shopping, CCC inwestuje w sztuczną inteligencję. Spółka wierzy, że właśnie takie rozwiązania jak voice search, będą kluczowe w budowaniu relacji z klientami i zapewnią lepsze doświadczenia zakupowe.

Popularność wyszukiwań głosowych może sprawić, że nawet jeśli w najbliższym czasie nie osiągniemy ruchu w sieci na poziomie przewidywanych entuzjastycznych 30%, to wciąż będzie ona rosła. Sprzedawcy w sieci nie powinni jeszcze traktować zakupów głosowych w kategoriach ogromnej rewolucji. Jednak już teraz warto uwzględnić ich obecność na rynku i potraktować jako nowy kanał, który będzie nowym źródłem generującym przychody. Przekładając na liczby: około 34 miliony Polaków codziennie korzysta ze smartfona, z czego około 24 miliony przyznały, że przeszukiwały sieć przy użyciu asystenta głosowego. Biorąc pod uwagę tempo rozwoju sztucznej inteligencji, algorytmów Google i popularność jego asystenta, warto zoptymalizować swoje usługi pod wyszukiwanie głosowe. To, co wydawało się być odległą przyszłością, tak naprawdę już towarzyszy nam w życiu codziennym.

Voice Search Optimization

Wyszukiwanie głosowe stało się nowym źródłem generującym ruch w sieci. Branża SEO musi być przygotowana na zmiany w sposobie konsumowania treści w Internecie, aby osiągać określone cele. Technologia jest na poziomie satysfakcjonującym dla internautów i wyszukiwanie głosowe będzie zyskiwało na popularności. Przewiduje się, że zakupy głosowe w najbliższych trzech latach przejmą 37% zakupów dokonywanych na stronach internetowych i do 45% zakupów dokonywanych w sklepach tradycyjnych. Największe firmy jak ASOS, Walmart, czy pionierzy na polskim rynku (Flixbus, pyszne.pl, CCC) już teraz wdrażają strategie zakupów głosowych, mimo jeszcze stosunkowo niskiej popularności. Tutaj bazują na doświadczeniach popularności aplikacji mobilnych. Kiedy bariery technologiczne i funkcjonalne zostaną przełamane, wówczas konsumenci bez skrępowania będą korzystać z tych rozwiązań. 

Dla e-commerce już teraz można zaimplementować kilka działań, przyjaznych dla funkcjonowania wyszukiwania głosowego. 

Dobór słów kluczowych 

Modyfikacja treści dla zapytań głosowych to pierwszy element, który już teraz można wdrożyć. Należy pamiętać o dwóch zasadniczych kwestiach: ludzie, którzy szukają głosowo, nie widzą produktu oraz ich zapytania znacząco różnią się od wyszukiwań wpisywanych w pasku wyszukiwarki. Język zapytań głosowych jest naturalny, kluczem jest uzupełnienie opisów i nazw produktów, aby wesprzeć wyszukiwanie głosowe. Słów kluczowych należy szukać w “długim ogonie” oraz możliwych pytań w zakresie tematu danej podstrony. Raz dobrana lista pytań będzie się powtarzać dla danej kategorii produktów. Z drugiej strony, wiele zapytań będzie dotyczyło danego produktu, niekoniecznie marki, stąd należy dokładnej analizie poddać kategorię, a nie rodzaj. Do opracowania istotnych zapytań przydadzą się darmowe narzędzie answerthepublic.com, czy płatna funkcja generatora pytań w Ahrefs.

Przygotowanie kompletnej listy Q&A oraz FAQ

Wartość treści odegra duże znaczenie dla wyników wyszukiwania, optymalizacja będzie dotyczyła odpowiedzi na konkretne pytania. Sekcja dedykowana voice search będzie wymagała konkretnych odpowiedzi na pytania zadawane przez użytkowników, np.: ile coś kosztuje, gdzie się znajduje lub z czego się składa. Dla e-commerce, czy uściślając dla v-commerce, opisy produktów należy wzbogacić o sekcję Q&A, która częściowo będzie odpowiadała za obsługę klienta. Pytania, na które sprzedawca udzieliłby odpowiedzi w sklepie stacjonarnym, muszą zostać przeniesione do e-sklepu. 

Poza elementami Q&A kategorii i produktów sklep powinien wdrożyć rozwiniętą sekcję FAQ. W istocie FAQ jest uważane za najlepsze rozwiązanie dla zapytań wyszukiwania głosowego. Optymalizacja wymaga utworzenia osobnej podstrony pytania z FAQ. W ten sposób każda uzyska unikalny tytuł zawierający konkretne zapytanie. Z drugiej strony należy uwzględnić przeciętną długość odpowiedzi podawaną przez asystenta głosowego, która składa się średnio z 29 słów. Odpowiedzi projektowane dla voice search powinny zawierać 30 słów lub mniej i być konkretne. Dzięki temu będą mogły również znaleźć się w wynikach wyszukiwania jako featured snippets.

Czas wczytywania strony 

Przyszłość zakupów głosowych i nowe technologie w przeważającej części będą dotyczyć mobile. Czas ładowania strony i jej dopasowanie do wyszukiwania na urządzeniach mobilnych będzie czynnikiem stanowiącym o pozycji w wynikach wyszukiwania. Z wejściem w życie Mobile-First Index Google określił kierunek rozwoju całej branży. Wyniki wyszukiwań głosowych są prezentowane szybciej w porównaniu z wynikami prezentowanymi na stronie. Czas dla wyszukiwania głosowego to 0,54 sekundy, a dla strony wynosi średnio 2,1 sekundy. Stąd ważne jest, aby strona była dobrze zoptymalizowana pod kątem czasu ładowania. Szybko wczytująca się strona pozytywnie wpłynie na pozycjonowanie w wynikach wyszukiwania głosowego. 

Strona mobile friendly 

Poza czasem ładowania strony należy wdrożyć kilka innych zasad rządzących światem mobile. Strona musi być responsywna, czyli automatycznie dopasowywać się do rozdzielczości ekranu urządzenia, na którym ją przeglądamy. Nie może zawierać treści stworzonych we Flashu – te nie są obsługiwane na urządzeniach mobilnych. Nie może również posiadać zbyt wielu elementów rozmieszczonych blisko siebie, małych czcionek i niedopasowanych zdjęć. 

Rozwiązanie kwestii związanych z obsługą strony na urządzeniach mobilnych jest kluczowym czynnikiem dla zajmowania wysokich pozycji w wynikach wyszukiwania, dotyczy to również wyników wyszukiwania głosowego. 

Certyfikat bezpieczeństwa 

Od 2014 roku algorytmy Google uwzględniają HTTPS jako czynnik rankujący, wyniki ze wdrożonym protokołem szyfrującym są prezentowane przez asystentów głosowych znacznie częściej niż wyniki z zapytań tekstowych, 71% vs. 50%.

Recenzje online i lokalne SEO

Strony z recenzjami mają wpływ na ocenę w rankingu stron. Warto zadbać o zaprezentowanie swoich treści w witrynach, jak Trip Advisor, Google My Business, czy Yelp. Strony oferujące recenzje online mogą niedługo odgrywać istotną rolę dla wyników wyszukiwania głosowego. Do tego należy uwzględnić fakt, że najczęściej zapytania głosowe dotyczą produktów i usług w najbliższym otoczeniu, stąd warto zoptymalizować treści dla zapytań “w pobliżu”.

Dane strukturalne 

Poprawne oznaczenie danych strukturalnych poprawia wynik wyszukiwania i wpływa na klikalność. Aby ułatwić robotom identyfikację poszczególnych elementów strony, zaleca się oznaczanie jak największej ilości elementów dla poszczególnych kategorii podstron, które będą zawierały odpowiedzi na pytania zadawane za pomocą wyszukiwania głosowego.

Analityka VSE

Obecnie odczytywane wyniki z zapytań głosowych nie pozostawiają danych analitycznych oraz nie generują nowych sesji na stronie. Wyniki wyszukiwania głosowego nie wytwarzają ruchu na stronie w sposób bezpośredni, ale wpływają na rozpoznawalność marki i jej wiarygodność. To z kolei ma bezpośrednie przełożenie na wzrost widoczności organicznej i wzrost ruchu na stronie z dwóch źródeł: organic jak i direct. 

Treści sponsorowane 

Wraz z rosnącą popularnością wyszukiwania głosowego należy liczyć się z pojawieniem treści sponsorowanych w wynikach podawanych przez asystenta. Pozostaje pytanie, jak kwestia oznaczenia sponsorowanych wyników wyszukiwania głosowego zostanie zaimplementowana przez Google. Podczas wyszukiwania pobliskiej restauracji, wyczytanie kilku lokalizacji przez asystenta nie będzie miało większego sensu, tutaj właśnie mogą pojawić się reklamy, które zepchną organiczne wyniki wyszukiwania na dalsze pozycje.

Jak zatem przygotować stronę przyjazną dla wyszukiwań głosowych?

Podsumowanie

Technologia voice search jest przyszłością – prosta i wygodna w użyciu. Patrząc na pierwsze statystyki, jakie pojawiają się na rynku, nie można zaprzeczyć, że w przeciągu najbliższych kilku lat zmieni ona sposób, w jaki obecnie są konsumowane treści w sieci. Chociaż Polacy nie są do końca przekonani do zakupu asystenta głosowego, to chętnie korzystają z wyszukiwań głosowych w telefonach komórkowych. Najmłodsi i najbardziej zdigitalizowani konsumenci w swoich zachowaniach nie różnią się znacząco od tych z Zachodu. Ich zachowania wyznaczą trendy, jakim będą musieli się poddać dostawcy dóbr i usług, aby istnieć i być konkurencyjnym w sieci. Poza tym wśród pozostałych grup wiekowych również pojawiają się oczekiwania co do wyszukiwania głosowego i zakupów. 

Należy być świadomym, że bez względu na to czy zostanie zaimplementowana strategia dla wyszukiwań głosowych, czy nie, ruch w sieci ulegnie przemodelowaniu. Jest to spowodowane zmianami, które następują w zachowaniach konsumentów. Ludzie  z natury są leniwi, nasze mózgi poszukują dróg na skróty, dlatego oglądamy video bez głosu, czy szukamy informacji w polecanych fragmentach w wynikach wyszukiwania, bez konieczności wchodzenia na stronę. Ma to potwierdzenie w liczbach. Spadek wejść organicznych po wdrożeniu featured snippets wynosi 37%. 85% filmów na Facebooku jest oglądanych bez dźwięku. Wyszukiwanie głosowe obecnie stanowi 20% ruchu w sieci i będzie rosło, według niektórych nawet wykładniczo. Wygoda, jaką daje voice search, sprawi, że voice commerce w najbliższych latach na dobre zagości w Polsce. Marki, które wykorzystają zaawansowane rozwiązania oferowane przez sztuczną inteligencję, w przyszłości zapewnią sobie lepszą pozycję na rynku. Warto już teraz pochylić się nad tym tematem.

Nowym rozwiązaniom towarzyszą spore obawy o bezpieczeństwo i zachowanie prywatności. Świadomość konsumentów w tej kwestii jest coraz większa. Niewątpliwie będzie to wyzwaniem dla dostawców usług sterowanych głosem. Przejrzystość zasad korzystania, gromadzenia, sposobu przechowywania i przetwarzania danych będzie jedną z barier, z którymi będzie musiała się zmierzyć branża. Kiedy zostanie przełamana na rynku e-commerce, jak i w świecie marketingu internetowego, nastąpią spore zmiany. 

Zawarte tutaj informacje to początek rekomendacji, ponieważ VSO powoli zaczyna zajmować swoje miejsce w strategiach SEO. Każda strategia uwzględniająca wyszukiwanie głosowe, powinna w istocie opierać się na specyfice danej branży. Dla jednych optymalne będzie stworzenie FAQ, które będą stanowiły uzupełnienie zapytań, dla innych kluczem do sukcesu może okazać się optymalizacja czasu ładowania strony i dopasowanie jej działania pod mobile.