Petr Hejl hlásí: Hotovo!
28. 1. 2012 v 12.42 • Témata: Bystrc, Google, hledač, Hlodač, hlodac.cz, IT, Ondrouškova, Petr Hejl, projekt, software, vyhledávač„Hotovo,“ ohlásil dnes Petr Hejl, programátor z Bystrce. Jak tvrdí, jeho rok trvající vývoj nového internetového vyhledávače je zdárně u konce.
Petr Hejl dle svých slov vynalezl nový algoritmus vyhledávání na internetu, který by měl být výrazně lepší než všechny existující včetně toho, který používá vyhledávač Google. Poté, co od soukromých investorů získal milion korun, zahájil loni v únoru vývoj Nového hledače. Na jeho konci, původně plánovaném na 31. leden 2012, měl být prototyp vyhledávače, jež by jasně demonstroval přednosti vynálezu pana Hejla.
Nyní, několik dnů před termínem, pan Hejl tvrdí, že svého cíle dosáhl. Co má skutečně v ruce, co se mu podařilo vyvinout a kde a jak se lze o jeho slovech přesvědčit?
*
Viktor Lošťák: Dobrý den, pane Hejle. Je 28. ledna, říkáte, že jste dosáhl toho, co jste si předsevzal. Kolik stránek nyní indexuje váš Hledač?
Petr Hejl: Okolo milionu.
To je mnohem méně než jste plánoval na začátku projektu; podle tehdejších záměrů to měla být miliarda. Čím to?
Sorry, tohle na 1 serveru s jednim diskovym polem prostě nejde. Českejch stránek je asi miliarda, Google.cz jede odhadem na 30 serverech. Snažil sem se dost, ale nende to.
Mezi milionem a miliardou je ale rozdíl tři řády. Byl váš původní odhad náročnosti až tak špatný? Kolik stránek dokážete s hardwarem, který máte k dispozici, opravdu indexovat?
Ano, muj odhad pro 1 server byl špatný. 1 server dokáže zpracovat tak 30 mega stránek.
Co je hlavním úzkým místem systému – kapacita síťového připojení, kapacita disků nebo výpočetní výkon?
Hlavním problémem je pomalost diskového pole.
Vyhledáváte tedy jen v necelém milionu stránek. Váš Nový hledač v nich nyní umí najít několik desítek slov, nikoli všechna, která se na nich vyskytují. To lze stěží považovat za univerzálně použitelný vyhledávač v praktickém užití porovnatelný s jakýmkoli existujícím. Co je tedy vlastně na vašem projektu „hotovo“? Co nyní máte v ruce?
Primárním účelem bylo ověřit můj algoritmus na minihladači a tento algoritmus následně prodat. Ověření sa povedlo, su o 20 procent lepší než Google, viz www.milionovastranka.net/documents/evaluation/vyhodnoceni.htm. Vyhodnocení pomocí 60ti samostatných slov a 250 slov v Google CSE považuji za relevantní.
Na webu máte výsledky v podobě čísel v tabulkách. Čísla mají ukazovat lepší schopnosti vašeho algoritmu v porovnání s Googlem a dalšími, bohužel je nelze nijak ověřit. Zveřejníte nejen čísla, ale i výsledky, odpovědi na dotazy z vašeho vyhledávače, třeba jako screenshoty?
Ano, uložím a zveřejním.
Nerozumím jedné podstatné věci. Domníval jsem se, že prakticky jediný použitelný způsob, jak vyhledávač pracuje je, že stáhne stránku, zjistí slova na ní vyskytující se a pod těmito slovy si stránku zaindexuje ve své databázi. Pak už rozborem jediné stránky na webu získáte přinejmenším desítky, možná stovky klíčových slov. Vy ale postupujete úplně jinak a pro mne nepochopitelně – přidáváte slova jaksi po jednom. Čím je způsoben ten rozdíl? Proč s každou stránkou neuložíte do databáze všechna slova, která obsahuje?
Pro každé ze 60 jednotlivých slov sem stahnul a zpracoval 10000+ stránek. Dělal sem asi 2 slova za den. Máte pravdu v tom, že slova jsou tam uložena 60 krát. Ale bylo to jednodušší a technologicky proveditelnější a relevantnější, než stahovat a zpracovávat mega stránek najednou.
Přiznám se, že vaší odpovědi vůbec nerozumím. Znamená to, že přidávání slov po jednom, navíc ručně, chcete pro svůj vyhledávač používat i nadále?
Samozřejmě ne. Ale pro prototyp a pro vyhodnocení byl postup po jednotlivých slovech jednodušší.
Mám také použito Google CSE, kdy jsem mu zadal mých 22 serverů. Je to asi 4 000 stránek, vyhodnocoval jsem cca 250 slov. Pomocí Google CSE mají Hlodač i Google stejné podmínky. Tam vyšel rozdíl Hlodač versus Gůglo +17 procent.
Myslím, že čtenář stejně jako já nemá tušení, co je to Google CSE a ani to vědět nechce. Bude asi nutné počkat až publikujete přímo výsledky dotazů, aby se každý mohl podívat, v čem jste vlastně lepší než Google. Ale i tak, vyhledávač, který umí najít jen necelých sto slov, k čemu to je? Není nyní možné váš milion stažených stránek zaindexovat tak, aby bylo možné vyhledávat všechna slova, která se tam vyskytují? Pokud ne, co tomu brání a dá se potom takový systém vůbec považovat za použitelný vyhledávač?
Je, ale nedává to smysl vzhledem k množinám. Pokud bysem Hlodač provozoval, musí to bejt na „skoro“ celym českym Netu, aby sa mi z jedné množiny nestahlo 10 procent a z jiné 90 procent.
Poznamenám pro čtenáře, že když nyní mluvíte o množinách, odvoláváte se na určité vnitřní chování vašeho algoritmu, který je však nadále tajný. Plánujete vytvořit veřejně přístupný, opravdu použitelný vyhledávač a pokud ano, v jakém termínu?
Teďky budu prodávat algoritmus. Realizaci Hlodača budu řešit až pokud se to nepovede. Byla by to otázka další (velké) investice.
Jaké jsou tedy nyní vaše další záměry s projektem Nový hledač?
Napsat dokumentaci k prodeji a následně algoritmus prodat.
Práce na projektu byla velice namáhavá, jak jste sám několikrát uvedl. Budete nyní nějakou dobu odpočívat?
Teďky eště moc né, musim udělat kopie (časově náročné) a napsat dokumentaci k prodeji. Pak pár dní jo.
Tak vám děkuji za odpovědi a přeji mnoho úspěchů.
Dík.
*
Pan Hejl odpověděl na otázky mailem, jeho text ponecháváme bez úprav.
*
Související
Prototyp hledače je hotov, je prý o 20 % lepší než Google
Petr Hejl: Makám, no time
Petr Hejl: Optimalizuji váhy
Nový hledač: Vývoj se zadrhává
Petr Hejl vs. Google: Hlodač.CZ přinese hlodání pro všechny
Další verze Hlodače se odkládá na srpen
Zatím málo, ale přece. Hledač Petra Hejla už hledá
Vsaďte si na mne, láká Petr Hejl
Petr Hejl sehnal milion, nový hledač startuje
Web Petra Hejla
Stránky projektu Nový hledač
Petr Hejl: Jako za starých dobrých časů
Rozhovor: Chci konkurovat Googlu a Seznamu
Exoti : Projekt Nový Hledač je stále zabavnější. Víc než Kabaret.
Petr Hejl na Facebooku
Nový hledač na Facebooku
Stránky pořadu Den D
Diskuze o projektu pana Hejla na serveru Lupa
Stránky projektu Nový hledač
Rozhovor s Petrem Hejlem o jeho projektu
Mission Impossible V: Projekt Nový hledač
Týden Živě: Revoluční hledač, lepší než Google
Projekt Nový hledač (výzva investorům)