Hlavní navigace

Nový Seznam - údiv tam vzbuzuje nejeden záznam

6. 6. 2003
Doba čtení: 12 minut

Sdílet

Spuštění nového Seznamu očekávalo s napětím mnoho uživatelů. Nejen ti, kteří používají katalog Seznamu pro vyhledání informací, ale také majitelé serverů a tvůrci webů a stránek - zkrátka obsahu, kterého se týká katalogizace. Změny, které se na Seznamu odehrály, však přinesly rozčarování oběma skupinám.
tiskové zprávě akciové společnosti Seznam.cz z poloviny května jsme se mohli dočíst, že: „Na začátku června čeká internetový portál Seznam.cz zásadní proměna. Chystané změny spočívají ve významném rozšíření funkčnosti a uživatelské přívětivosti hlavních služeb portálu a představují největší inovaci v hledání informací na internetu od jeho vzniku.“ Seznam dále sliboval „kvalitní výstup vyhledávání v katalogu nekomerčních stránek. Nekomerční stránky je možné setřídit nejen podle abecedy, ale také podle jejich kvality. K rozlišení kvality neboli relevance [zvýraznil autor – viz dále] stránek byl vyvinut algoritmus zohledňující informace o počtu odkazů na danou stránku, velikosti stránek a periodicitě aktualizace. Pro okamžitý přehled jsou u jednotlivých stránek k dispozici malé screenshoty.“

Po spuštění Seznamu se začalo v odborných konferencích a mezi uživateli šuškat (např. v konferenci SEO.nawebu.cz) o tom, že s kvalitou nového katalogu to není tak žhavé. Mnoho odkazů se nachází v kategoriích, kde zjevně nemají co dělat. Např. knižní nakladatelství Ekopress mezi vydavateli časopisů a novin, nakladatelství Vyšehrad mezi reprografickými službami, autobazary mezi prodejci nových vozidel, stránky televizního pořadu ESO komerční TV NOVA v sekci nekomerčních stránek, stejně tak jako se tam podařilo ukrýt webům farmaceutických společností, maskujících se za informace o zdraví atd. Přitom Seznam tvrdí, že: „Do katalogu WWW stránek mohou být zařazeny pouze stránky nekomerční (osobní stránky, informativní stránky). Firmy, společnosti, sdružení a instituce mohou být zařazeny pouze do katalogu firem a institucí.“ Pravidla pro tvorbu katalogového záznamu (titulku a anotace) pak uvádějí především vše, co odkaz obsahovat nesmí.

Seznam sám přiznal, že se při startu nového katalogu nepovedlo vše podle jeho představ. Na domácí stránce portálu se objevila tato informace: „Vážení uživatelé. V Novém Seznamu se dosud nezobrazuje 15 tisíc velice kvalitních odkazů. Na opravě chyby pracujeme.“ Samozřejmě nejjednodušší bylo se na některé věci zeptat někoho ze Seznamu. Odpověděl mi tiskový mluvčí a PR manažer společnosti Seznam, Tomáš Fiala.

Nejprve ještě uvedu Fialovy řádové odhady vývoje počtu odkazů v katalogu Seznamu:

1996 – 1500 odkazů
1999 – 50.000 odkazů
2002 – 260.000 odkazů
2003 – 340.000 odkazů

Bádal jsem nad řazením podle kvality a data poslední aktualizace. Na paškál jsem si vzal již pár hodin po spuštění sekci Časopisy a e-ziny o počítačích a sítích. Lupa se podle data poslední aktualizace zařadila blíže sté příčce než začátku výpisu, kde by člověk server, který ve všední den přináší několik čerstvých zpráviček, čekal spíše. Podle „kvality“ se na prvním místě ve stejné kategorii nacházel nefunkční odkaz na:

Computrák
Na naší stránce najdete info o internetu, počítačích, recenze, hardwaru, softwaru a hrách.
http://computrak­.wz.cz

863



Libor Nováček (LN): Jakým způsobem se počítá aktualizace a kvalita stránek – je to jedno z možných třídících kriterií výsledku, přitom podle mnohých testů, které jsem si dělal, nedokáži odvodit, proč je např. nefunkční web, který neznám, „nejlepší“ e-zin o počítačích a sítích, před Živě, Lupou…

Tomáš Fiala (TF): Výpočet kvality stánek je založen na speciálním algoritmu, který jsme sami vyvinuli. Tento algoritmus zohledňuje několik faktorů, jako například míru shody hledaného výrazu nebo fráze s jednotlivými popisy a tituly stránek, jejich pozicí, URL, atd.

Vzpomeňte si, že jsem zvýraznil slovo relevance na začátku článku. V tiskové zprávě se pokládá mezi relevanci a kvalitu rovnítko. Jenže význam slova relevance* není stejný jako význam slova kvalita.

Řazení podle kvality stánek nedávno zavedl ve svém katalogu i konkurenční Atlas.cz, který vysvětluje (přímo na svých stránkách) kvalitu takto: „Jedná se o kvalitu stránky v porovnání k ostatním stránkám v této kategorii. Odvíjí se mimo jiné od toho, jaké množství dalších internetových stránek na daný web odkazuje. Dá se vysvětlit také jako popularita dané stránky na Internetu“. V sekci Obsah – Zpravodajství – Elektronické noviny a časopisy – Počítače a sítě – Sítě a internet pak figurují weby v tomto pořadí: Lupa, Živě, Connect, eBiz, ISDN server. Pozice jednotlivých odkazů se zde odvozuje z Jyxoranku společnosti Jyxo, doplněného o speciální algoritmy Atlasu.

Dovolím si vsuvku, knihovníci, informační pracovníci a pokročilí uživatelé knihoven a dalších informačních institucí mohou toto čtení vynechat.

Internet přinesl převratnou změnu ve způsobu uspokojování našich informačních potřeb. Od stolu máme možnost vyhledávat v nesmírném množství informací – to rostlo společně s množstvím uživatelů. Internet tak přinesl možnosti vyhledávat i publikovat obrovskému množství laiků. Dříve bylo vyhledávání informací doménou informačních pracovníků (např. v knihovnách či dalších informačních institucích). Publikování byla starost zejména nakladatelů a vydavatelů. Samozřejmě jak k producentům, tak ke konzumentům informací můžeme zařadit i pilné studenty a vědce. Také oni museli zvládnout práci s informacemi, s jejich vyhledáváním a pořádáním. Měli však k těmto činnostem jistou průpravu. Stamiliony internetových uživatelů po celém světě dnes hledají spíše intuitivně, aniž by třeba chápaly základní aspekty práce s informacemi. Na stánkách vyhledávačů a katalogů totiž naleznou technické vysvětlení ohledně booleovské algebry, ale tím to většinou končí. Opravdu nechci čtenáře nudit knihovnami, ale právě v nich, již před staletími, začali řešit problematiku pořádání informací – a nemálo knihovníků strávilo výzkumem pořádání všeho lidského poznání celý profesní život. Každý dokument, který se dostane do knihovny, musí nejdříve vzít do ruky katalogizátor a na základě jeho obsahové analýzy (zjištění, o čem kniha, článek či jiný dokument je) provést jeho indexaci. Ten, kdo indexuje, přiřazuje dokumentům znak či znaky tzv. selekčního jazyka*. Obyčejně mají tito lidé alespoň středoškolské vzdělání knihovnického směru, někdy i vysokou školu, často i školy dvě – jednu pro odbornost (např. inženýři chemie), druhou pro práci s informacemi (až včetně doktorátu z informační vědy). Jakkoliv se laikům indexace a ostatní zpracování informací může zdát lehké, není tomu tak. Stačí, aby knihovník knihu hodně špatně zařadil a uživatel pak při hledání nedostane na svůj dotaz tuto knihu mezi relevantními odpověďmi, přitom dokument se v knihovně bude vyskytovat. Nebo věc zkomplikuje špatně zvolená pořádací soustava při projektování informační instituce. Do katalogu Seznamu si tvoří anotace a volí zařazení uživatelé, když se toto zařazení pracovníkům Seznamu nezdá, odkaz přesunou jinam. Vlastníci webu vnášejí do anotací často zcela nadbytečná slova (ať neúmyslně či úmyslně – aby je našel uživatel, který hledal něco zcela jiného) a pracovníci Seznamu, zdá se, přidávají zmatek při indexaci. Že by se hodilo označení laici a uspěchanci?

LN: Jaké je odborné vzdělání lidí, kteří tvoří strukturu katalogu a zatřiďují stránky do této struktury (t.j. provádějí vlastní indexaci)? Zejména mě zajímá, zda má např. někdo v týmu vystudované školy knihovnicko-informačního zaměření, procházejí brigádníci školením atd.? Případně spolupracuje na tvorbě nějaký odborný konzultant, např. vyslaný zahraničním akcionářem Seznamu?

TF: Struktura katalogu byla vytvořena na základě analýzy přehledu klíčových slov hledaných v katalogu Seznam v loňském roce. Tým, který má na starosti vytváření a struktury a zatřiďování stránek, zahrnuje jak zkušené lidi, tak stálé externisty a zaškolené brigádníky.

Pracovníci Seznamu tedy tvoří strukturu katalogu na základě analýzy dotazů uživatelů. Žádná knihovna ale nepořádá informace podle toho, jak kladou dotazy uživatelé. To uživatelé se musejí naučit hledat podle toho, jak knihovna pořádá informace. Vždy je na prvním místě obsah dokumentů, od kterého se musí pořádací soustava odvíjet. Jenže knihovny jsou určeny pro uspokojování informačních potřeb, katalog Seznamu pro vydělávání peněz svým akcionářům. A co hledané slovo, to šance tento uživatelův dotaz prodat komukoliv, kdo má v katalogu záznam a chce být lépe vidět a stojí mu zaplatit za přednostní pozici ve výpise.

LN: Jaké znaky musí website/stránka vykazovat, aby byly zaindexovány jako nekomerční a jaké pro zařazení do firem a institucí?

TF: Základní předpoklad je, zda subjekt provozuje dané webové stránky k výdělečným účelům či nikoliv. Existují samozřejmě výjimky. Například internetové obchody jsou zařazeny do nekomerčního katalogu jako samostatná sekce, protože patří mezi uživatelsky zajímavé služby, ale v komerčním katalogu jsou uvedeni provozovatelé těchto obchodů, tedy podnikatelské subjekty.

Poznat, zda někdo provozuje webové stránky k výdělečným účelům či nikoliv vyžaduje hlubší obsahovou analýzu. Stejně tak zařadit záznam do správné sekce katalogu vyžaduje čas. Pojďme opět nahlédnout do knihovny. Např. Daniel Kindl, který má v Národní knihovně ČR na starost tvorbu záznamů pro odborné články z oblasti práva, mi prozradil, že když stihne za směnu zpracovat 20 článků, dostává se již nad limit, který po něm zaměstnavatel požaduje. Bibliografický záznam, který se v knihovnách tvoří, sice obsahuje daleko více informací než záznam pro internetový katalog, ale přesto je zde dána časová náročnost právě obsahovou analýzou (on na články jen nepodívá, on je musí přečíst). Ředitel Ústavu informačních studií a knihovnictví FF UK, Richard Papík, Ph.D., pak např. nevidí nic divného na tom, že by obsahová analýza webu zabrala třeba i 15 minut. Brigádník, který kdysi pomáhal s tvorbou katalogu klikni.idnes.cz (jeho kritiku jsem provedl v předloňském článku zde na Lupě s názvem „klikni.idnes.cz je ostudou mezi katalogy“) se mi pochlubil, že záznamy vznikaly v hale plné brigádníků tempem jeden záznam – několik málo minut. Ono totiž uhlídat produktivitu externistů či brigádníků moc nejde a finanční motivace za jeden záznam jde spojit s kvalitou jen u opravdu pro věc nadšených jedinců a nikoliv lidí, kteří si přišli tvorbou katalogu vydělat peníze.

LN: Kolik uživatelů denně se na Seznam nyní obrací s tím, že s jejich odkazem není něco v pořádku? Můžete porovnat tento stav se starým katalogem?

TF: Katalog nového Seznamu jsme spustili tento týden a nyní probíhá vylaďování a opravování chyb, kterým se u projektů takového rozsahu nedalo předejít. V této situaci by proto nebylo správné srovnávat.

LN: Kolik lidí celkem na údržbě katalogu pracuje – kolik je pro projekt stálých zaměstnanců Seznamu a kolik je brigádníků? Má systém tvorby katalogu nějakou vícestupňovou kontrolu, zejména brigádníků – nebo je to čistě na nich, bez následné kontroly?

TF: Na údržbě katalogu pracuje deset stálých zaměstnanců a řádově desítky brigádníků a externistů. Interní systém kontroly samozřejmě existuje.

LN: Jak jsou tvůrci katalogu odměňováni – za záznam či odpracovaný čas? Mají nějaký limit pro tvorbu či kontrolu jednoho záznamu, případně kolik tento limit činí?

TF: Systém odměňování je nastaven tak, aby byl pro pracovníky motivační, největší důraz však klademe na kvalitu zatřiďování, protože právě kvalita katalogu je to, čím se chceme odlišit od konkurence.

LN: Dělali jste před spuštěním nového katalogu nějaká pokusná sezení s uživateli (mimo vnitrofiremních testů), abyste prozkoumali, jak budou změny uživatelskou veřejností přijaty?

TF: Ideu a zpracování nového katalogu jsme prodiskutovali se širokým okruhem uživatelů jak z odborných kruhů, tak laické veřejnosti. Jejich připomínky jsme zohlednili i ve vývoji.

Můj názor na celou věc je takový, že katalog je teď méně použitelný. Asi dokáže vydělat akcionářům Seznamu větší peníze, což je komerční cíl provozovatele. Možná přijde o pár procent uživatelů, ale tržní podíl Seznamu, měřený podle celkové návštěvnosti všech jeho služeb, to zřejmě příliš neovlivní. Podle dnešního článku na e-commerce.cz Jak velký je propad Seznamu? se však zdá, že některým provozovatelům serverů začalo chodit díky nezvládnutému přechodu na novou verzi katalogu už nyní viditelně méně uživatelů.

*Na závěr několik málo termínů z informační vědy (převzatá hesla jsou z České terminologické databáze z oblasti knihovnictví a informační vědy):

indexace
Proces vyjádření obsahu dokumentu pomocí prvků selekčního jazyka, obvykle s cílem umožnit zpětné vyhledávání. Podle použitých metod se rozlišuje pojmová a slovní indexace, podle použitých postupů se rozlišuje intelektuální, automatická a poloautomatická indexace. Z hlediska použitých selekčních jazyků se rozlišuje prekoordinovaná indexace a postkoordinovaná indexace.

předmětový selekční jazyk
Selekční jazyk založený na abecedně uspořádaném systému hesel, popř. lexikálních jednotek. Podle charakteru lexikálních jednotek se rozlišují předmětové selekční jazyky založené na použití klíčových slov (např. klíčová slova z názvu dokumentů, rotované rejstříky), předmětová hesla (jazyk předmětových hesel) a deskriptorové selekční jazyky.

relevantní dokument
Dokument, který odpovídá kritériu relevance, tj. jeho selekční obraz je formálně nebo věcně shodný se selekčním obrazem informačního dotazu.

pertinentní informace
Informace, které vyhovují subjektivním požadavkům uživatele na obsah informace nebo dokumentu.

 

Anketa

. Jaký máte dojem z nového Seznamu?

. Je tento obchodní model životaschopný?

Martin Kopta

Nelíbí se mi řeči o nové generaci vyhledavačů, které už nebudou hledat stránky na webu, ale přímo informace. Rád na webu jen tak browsdám a tenhle trend, zdá se mi, vede k tvorbě závislosti uživatelů na jednom jediném webu-portálu. Na druhou stranu, vznik obchodního katalogu vítám. Telefonní seznamy jsou nepoužitelné. Portály nepoužívám, takže neumím říci, jestli je řazení záznamů v katalogu podle PageRanku dobrý nápad, nenapadá mě však lepší způsob. Z krátké zkušenosti musím přiznat, že nově vytvořená struktura sekcí mi vyhovuje. Možná ty katalogy nejsou úplně k ničemu. Ostatní novinky na Seznamu jsem zatím bohužel ještě nestihl zažít.

Marek Prokop

Když jsem nový katalog Seznamu poprvé procházel, byl jsem doslova zděšen. Mnoho stránek je zatříděno do zcela neodpovídajících kategorií. K některým podkategoriím jsem dokonce nenašel vůbec žádnou cestu a objevil jsem je jen náhodou fulltextovým hledáním. Z pohledu informační architektury je tedy nový Seznam opravdu odstrašující příklad. Na druhou stranu pozoruji, že se obsah katalogu neustále proměňuje a předpokládám tedy, že většina problémů jsou jen dětské nemoci, které časem zmizí. Bohužel, nyní asi nedokážu rozlišit, co je jen dočasná chyba a co plánovaný záměr.

Obchodní model založený na zpoplatněné registraci do katalogu komerčních stránek nepochybně životaschopný je. Méně již ale věřím jeho hybridní verzi, kterou Seznam zřejmě zvolil. Budou-li záznamy v katalogu řazeny podle toho, zda jsou placené či ne, aniž by byly zřetelně odlišeny, těžko to uživatelům přinese něco dobrého. Nejraději bych ale nechal hodnocení na později. Význam změn ukáže až to, kolik návštěvníků a jak dobře zacílených bude ze Seznamu chodit na konkrétní weby. Statistika, kterou jsem si rychle udělal za poslední tři dny, zatím žádné významné změny nenaznačuje.

Petr Staníček

BRAND24

Špatný. Seznam jde zcela proti trendu maximálního zjednodušování (viz Google, Altavista). Kategorií je moc a nejsou moc srozumitelné. Světle šedé pidipísmo na bílém podkladu snad ani nemůže být určeno ke čtení. Rozdělení obsahu na dvě části se mi vůbec nelíbí. Když hledám konkrétní firmu, najdu si ji jinde jednodušeji – v katalogu Seznamu ale často nevím, co přesně hledám. Očekává-li Seznam, že budu hledat dvojmo, zklamu ho. Budu hledat jinde.

Nějakou dobu určitě. Setrvačnost Seznamu je díky jeho současné pozici obrovská. Těžko ale říct, jak bude vypadat za pár let. Ne úplně levné roční poplatky asi ze Seznamu spláchnou řadu malých firem a drobných provozoven (pro tři největší firmy v oboru katalog nepotřebuji). Bude-li navíc relevance vyhledávání nahrazena výší bakšiše „inzerentů“, jistá část uživatelů si časem najde efektivnější a přesnější vyhledávače. S poklesem zájmu návštěvníků klesne zájem inzerentů atd. ve spirále. Jak rychlý tenhle trend může být, si netroufnu odhadnout. Může být rapidní i plíživě nenápadný. Podle mně autoři zapomněli na dvě základní premisy dobrého vyhledávače, kterými jsou kvantita odkazů a relevance výsledků vyhledávání. Na jeden z aspektů lze klást důraz na úkor druhého – Seznam ale degraduje oba současně. Jsem přesvědčen, že existují životaschopnější obchodní modely.

Do které kategorie byste se zařadili?

Byl pro vás článek přínosný?

Autor článku

Autor pracuje intenzivně s Internetem od roku 1993. Dlouhodobě se. Věnuje publikační činnosti, spolupracoval např.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).