TOPlist

Pixylophone - komentáře

Komentáře (od nejstarších po nejnovější)

Komentáře k příspěvku Generátor "dummy" textu


[1] Vložil(a): rADo [web], 2004-06-07, 21:03 Solo | MuteČtenáři: ---

Taky jsem si něco podobného pro sebe dělal, ale šel jsem cestou analýzy HODNĚ dlouhého textu, a automatického vytvoření slovníku slov z toho textu a jeho vah.. Pak ten generátor dělá docela použitelné věci.

Ale na výplňovej text je i to tvoje ok.

[2] Vložil(a): dusoft [web], 2004-06-07, 21:05 Solo | MuteČtenáři: ---

A nebolo by to niekde k dispozicii ako open source, pripadne k nahliadnutiu? Aj ten [1] aj Pixyho?

[3] Vložil(a): dusoft [web], 2004-06-07, 21:06 Solo | MuteČtenáři: ---

Inak dobra praca, podoba sa to na cestinu.

[4] Vložil(a): dgx [web], 2004-06-07, 21:13 Solo | MuteČtenáři: ---

Tak budu možná jediný oponent, ale ten výsledek je zatím velmi nepřesvědčivý. Chce to na tom ještě zamakat, popř. vymyslet jiný algoritmus.

Text by měl vypadat "česky" při velmi letmém pohledu, rozostřeně, zdálky... ale to se zatím nepovedlo...

[5] Vložil(a): Martin Kopta [web], 2004-06-07, 21:28 Solo | MuteČtenáři: ---

Taky bych řek, že tomu oproti Cold blooded turkey (http://www.fi.muni.cz/~xznamen/turkey/index.cgi?magic=itsmyaeroplane&pnumber=5&dictionary=nice) chybí ten vzhled českého textu. K tomu je potřeba pracovat alespoň s frekvencí slabik, znaky jsou málo.

[6] Vložil(a): pixy [web], 2004-06-07, 21:33 Solo | MuteČtenáři: ---

Martine, tohle je postaveno na slabikách (jinak by se to nedalo číst). Na Cold-blooded turkey mi vadí že je české až moc a ta existující česká slova příliš poutají pozornost.

[7] Vložil(a): Zerryk, 2004-06-07, 21:50 Solo | MuteČtenáři: ---

Proč mi to připomíná vogonskou poezii...? :-)

[8] Vložil(a): Michal Kubeček, 2004-06-07, 22:03 Solo | MuteČtenáři: ---

K otázce o náhodném rozdělení: jestli jde o to, jak vygenerovat prvek konečné množiny s předepsaným rozdělením pravděpodobnosti, používá se obvykle pomocná posloupnost q_i = \sum_{j=1}^i p_i, pak se náhodně (rovnoměrně) zvolí číslo x v intervalu [0,1) a hledá se i tak, aby q_{i-1} <= x < q_{i} (kde q_0 := 0). Protože q_i je neklesající, lze vyhledávat půlením intervalu s logaritmickou časovou složitostí vzhledem k počtu prvků množiny. To by mělo být efektivní i v PHP.

[9] Vložil(a): Satano, 2004-06-07, 22:41 Solo | MuteČtenáři: ---

Generátor náhodných čísel

Prvý, ktorý ma napadol, lebo som sa s ním náhodou v blízkej minulosti stretol je tzv. kongruenčný generátor. (Teraz som si neni istý aké má rozdelenie, ale mohlo by to byť normálne. Treba vyskúšať :-)) Jeho vzorec je:

x_k+1 = (x_k * a + c) modulo m

x_k+1 - nové náhodné číslo
x_k - posledné náhodné číslo
a - násobiaca konštanta
c - aditívna konštanta, brániaca degenerovaniu generátora, pri prípadnom vygenerovaní nuly.
m - deliteľ, obmedzujúci najvyššiu hodnotu generovaného čísla.

Ako aj generátory vstavané v programovacíxh jazykoch, treba ho "naštartovať" nejakým prvým číslom x_0.

V ideálnom prípade generátor pracuje s periódou m. Dobré výsledky dávajú generátory, pri voľbe nepárneho x_0, deliteľa m=2^r a násobiča a=8k+-3. Pre ľubovoľné k>0 je potom perióda 2^(r-2). A ešte hodnota násobiča by mala byť blízka číslu a=2^(r/2).

Ako príklad pre 32 bitový počítač tu mám napríklad uvedené: m=2^31, a=2^16+3

Kdesi sme mali aj generátory s inými rozdeleniami (rovnomerné, poissonovo). Ak by ste mali záujem, skúsim ich pohľadať.

Satano

[10] Vložil(a): Satano, 2004-06-07, 22:49 Solo | MuteČtenáři: ---

Oprava [9]

Ten generátor má rovnomerné a nie normálne rozdelenie.

Satano

[11] Vložil(a): Jan Dvořák, 2004-06-07, 22:54 Solo | MuteČtenáři: ---

Připomíná mi to trochu staroslověnštinu.
Nevím ale jestli je to to pravé ořechové. Zadrhávám se na tom pohledem. Asi proto, že to vypadá text, který by mohl být smysluplný. Tím že ale není mě ještě víc rozruší.

[12] Vložil(a): binarniladin [web], 2004-06-07, 23:49 Solo | MuteČtenáři: ---

kdysi jsem v nějakém článku od Koukolíka četl o generátoru textu , který imitoval styl postomoderních filozofů, snad je prý někde na netu k dispozici ale nevím kde.

[13] Vložil(a): Roman [web], 2004-06-08, 02:10 Solo | MuteČtenáři: ---

Spojky, predložky, zámená a podobne by som navrhoval generovať z osobitného (najlpešie čo najkompletnejšieho) zoznamu a gramaticky čo najsprávnejšie. Ostatné kludne môže zostať po vogonsky a možno by bolo zaujímavé mierne zvýšiť frekvenciu výskytu spojo a predložiek.

[14] Vložil(a): Roman [web], 2004-06-08, 02:12 Solo | MuteČtenáři: ---

Zabudol som na to podstatne, navrhoval by som teda uplne sa vyhnut generovaniu kombinacii pismen (do 3 pismen), ktore nexistuju.

[15] Vložil(a): TimJ, 2004-06-08, 09:38 Solo | MuteČtenáři: ---

Moc hezká práce Pixy. Ještě by to potřebovalo trochu dotáhnout:
1) kolik čeho generovat
2) jak píše Roman ([13],[14]) zájmena a spojky používat existující a na krátká nesmyslná slova se vykašlat.
3(optional)) a ještě zkombinovat s Radkovým nápadem a nechat vybrat, zda tvořit slova, nebo slátaniny :-))).
Uf, teď to vypadá, jak když kritizuju. Naopak. :-D

[16] Vložil(a): llook [web], 2004-06-08, 12:40 Solo | MuteČtenáři: ---

Super! Hlavně se mi líbí, že to nepřipomíná nic smysluplnýho, ale zároveň to(narozdíl od "asdasd") graficky připomíná češtinu. [11] si to sice nemyslí, ale mně to ze všech generátorů češtiny připadá nejblíž tomuhle ideálu.

Na webu ovšem IMO dostačuje Lorem. A pro rychlé dummy pro vlastní potřebu stačí i to "asdasd" nebo třeba =rand(počet_řádků,počet_vět) ve Wordu.

[17] Vložil(a): Michal Kubeček, 2004-06-08, 20:35 Solo | MuteČtenáři: ---

Ad [12], Postmodernism Generator: http://www.elsewhere.org/cgi-bin/postmodern/

[18] Vložil(a): lukasm, 2004-06-08, 20:39 Solo | MuteČtenáři: ---

Kdyby to nahodou nejak pomohlo - program HTTrack (na kopirovani celych webu pro offline pouziti) ma v options pri ukladani webu ( http://www.httrack.com/html/step9_opt9.html ) polozku "Make a word database", ktera ulozi v nejakem formatu do txt souboru jaka slova byla pouzita a kde.

[19] Vložil(a): Ladis, 2004-06-09, 10:58 Solo | MuteČtenáři:  - - -

Sorry, ale pokud vygenerujes nejakou veticku a bez zdrojaku posadis na web tak je pro me cely tvuj prispevek uplne naprd. Na zdrojak se podivat nepomuzu a vygenerovany text skoro vubec nema tvar ceske vety... Nojo, nemusi byt kazda zprava k necemu, ale takovy prispevek totalne k hov..u uz jsem dlouho nevidel.

[20] Vložil(a): pixy [web], 2004-06-09, 11:14 Solo | MuteČtenáři: ---

Ladis > Jednak ti to nikdo necpe, jednak patrně všichni až na tebe pochopili, že to je náhodný text a stačí dát reload, aby se vytvořil jiný text.

Opravdu nechápu, proč bych ti měl dávat zdroják. Když ti to nevyhovuje, tak to ignoruj. Někomu (třeba mě) se to ale hodí. Stejně tak netuším, proč by dummy text měl mít nějakou větnou strukturu - vždyť to slouží jako prostá výplň plochy a tam je důležitý grafický vzhled, ne sémantická struktura textu...

[21] Vložil(a): pixy [web], 2004-06-09, 11:23 Solo | MuteČtenáři: ---

Ještě dodatek, pro ty, co stále nepochopili, k čemu je to dobré. Když potřebuju vyplnit textovou plochu v grafickém návrhu, tak mám v zásadě tři možnosti:

a) Dát tam skutečný text. Můžu tam napsat vlastní povídku, zkopírovat kus náhodného textu z webu, nebo třeba první kapitolu Babičky. Ale to obvykle ruší - uživatel se (byť okrajově) soustředí na obsah textu a nevnímá plně samotný design

b) Dát tam pseudo-reálný text. Můžu použít generátor typu Lorem-ipsum, nebo Cold-blooded-turkey, náhodně vkládat slova ze slovníku, nebo něco podobného. Je to obvykle ideální, ale text přesto stále svádí ke čtení a hledání významu v jeho obsahu.

c) Dát tam očividně nesmyslný a zcela bezvýznamový shluk znaků. Obvykle se to řeší nějakým tím "asdafadasd safasdas", ale opticky to je problém, protože takový text nevypadá na první pohled jako reálný - vznikají v něm pravidleně se opakující vzory, řeky, nemá strukturu a rytmus skutečného jazyka, chybí v něm diaritiky atd. Proto jsem udělal tenhle generátor, který nedělá nic jiného než to "asdfasfa asdasd", ale trochu sofistikovaněji - tak, aby výsledek co nejvěrněji odrážel vzhled průměrného českého textu. Co do délky slov, počtu slabik, délky vět, frekvence diakritik atd.

Ne vždy je to úplně blízko průměru, ale běžný český text má taky extrémní výkyvy. Pokud se zrovna vygeneruje text, kde se zdá být moc "ř" nebo málo "ý" nebojánevímco, stačí dát "reload" a některá z dalších náhodných variant bude určitě vhodnější.

[22] Vložil(a): Ladis, 2004-06-09, 21:23 Solo | MuteČtenáři: ---

Ale jiste ze pochopil, ja pouzivam Lorem Ipsum ze stranek LoremIpsum.Com a taky bych potreboval neco na cesky text (nekdy je rychlejsi to najit na webu nez na harddisku). Chtel jsem rict ze to na rozdil od [5] ani "zdalky" nevypada jako cesky text, samy hacek atd. Ten zdrojak me ani moc nezajima, jen zkratka nevim celkove k cemu byl ten prispevek, jestli chces ukazat ze programujes v PHPku nebo co. Udelej tam aspon vic radku a odstavce at je to trochu k necemu, server ti nespadne, neboj, tak dobry ten generator neni, aby to nekdo pouzival pravidelne.
A nenech se tak snadno vytocit ;-)

[23] Vložil(a): Viktor Janeba, 2004-06-09, 22:08 Solo | MuteČtenáři: ---

Brrr, to zni ukrutne. Nastesti jsem prisel k "hotovemu" (sedmileta holcicka :-)).
Preju hodne stesti.

P.S. TEHULKA! To je STRASNE, OPRAVDU STRASNE slovo... nikdo mi nevymluvi, ze je to konstrukt casopisu Elle, Cosmopolitan a Katka, podobne jako "plnostihla" (ackoliv tohle pamatuju jeste pred nastupem ukrutnych casopisu pro moderni zeny).

[24] Vložil(a): Viktor Janeba, 2004-06-09, 22:08 Solo | MuteČtenáři: ---

Dohaje tak tohle NECHAPU... prisahal bych, ze jsem to psal k tomu pravemu blogpostu. Pardon.

[25] Vložil(a): Lokutus, 2004-06-10, 21:09 Solo | MuteČtenáři: ---

Mohl by mi někdo poradit?
Potřeboval bych poradit zdroj, ze kterého bych se mohl naučit analýzu textu formou tokenizér, lexikální analyzér... Prostě něco podobného, co dělá flex.
Kniha, web - cokoliv, z čeho bych mohl čerpat.
Díky

[26] Vložil(a): Mamuf van Shmuuf [web], 2004-07-01, 20:20 Solo | MuteČtenáři: ---

Vytvoril jsem si vlastni dummy text generator...spis z dlouhe chvile a ze zvedavosti.
Generuje se na zaklade slabik....je mozne pouzit vice \"slovniku\", pricemz slabikou muze byt vlastne cokoli.
Cestina nema hotovy slovnik (chybi hodne slabik). Implicitne je tam cosi, co muze pripominat takovy mix ruznych jazyku jako je latinkou psana japonstina, latina a ja nevim co jeste. Pred generovanim se nastavuje nahodny pocet slov... po vygenerovani se jeste nahodne doplni carky a tecky (tj. vytvori se vety a souveti). myslim, ze nejake odstavce nejsou potreba....proste si vygeneruju vickrat a je to....navic casto staci jeden vystup a pak rozdelit na maly ci velky odstavce...
No podivejte se sami:
- http://mamuf.advel.cz/dummy/
- http://mamuf.advel.cz/dummy/?lang=czech
- http://mamuf.advel.cz/dummy/?lang=hex
i kdyz teda ta cestina nema dokonceny slovnik, kdyz to porovnam s pixyho verzi, vypada to celkem hodne podobne, co myslite?

[27] Vložil(a): Mamuf van Shmuuf [web], 2004-07-01, 20:27 Solo | MuteČtenáři: ---

[26] Jeste prilozim nekolik sluvek, ktere mi z toho vypadly a ktere se mi zalibily... pravdepodobne nebude moc lidi, kterym vy se znovu vygenerovaly: bokchudoba, resulapotka, batubój, Kozefázy šogemý, čičitída, žipotka, ... a dalsi a dalsi :)). obcas z toho vyjdou zajimavy slova... btw zapomnel jsem dodat, ze pro kazdy \"slovnik\" lze nastavit rozsah poctu slabik ve slovech a podledne jsem pridal i predpony a pripony...cestina je zatim nepouziva, jen ten implicitni jazyk...

[28] Vložil(a): pajout, 2004-08-02, 18:57 Solo | MuteČtenáři: ---

Jestli jsem to spravne pochopil, je treba generovat nahodne hodnoty pri zadanem rozdeleni ?
Myslenka je tahle: se vygeneruje nahodne cislo z (0, 1) a aplikuje se na nej 'funkce' inverzni k zadane distribucni. Pozor pri nespojite hustote pravdepodobnosti - nemusi to byt funkce v matematickem smyslu slova.

Jinak, vogonska poezie a/nebo proza je podle meho nazoru pro vyplnovy text dostatecna. A navic to ma pro Vogony zvlastni vyznam :)

[29] Vložil(a): zoul [web], 2004-10-07, 16:08 Solo | MuteČtenáři: ---

Ahoj,

jelikoz jsem zjistil, ze meho Studeneho Krocana vazne nekdo pouziva, udelal jsem z nej normalni aplikaci, je dostupna na http://turkey.sf.net --- na puvodnim krocanove URL uz je presmerovani, ktere za par dni zmizi se zbytkem mych fakultnich stranek.

Doufam ze se vam bude nova verze Krocana libit, pripominky uvitam v mailing listu.

T.

[30] Vložil(a): johno [web], 2005-03-26, 13:09 Solo | MuteČtenáři: ---

http://johno.jsmf.net/knowhow/ngrams/


Váš názor

Přidat nový komentář

Váš komentář

Přidávání komentářů k tomuto příspěvku již bylo ukončeno.

Chcete-li autorovi přesto sdělit nějakou podstatnou informaci, která se příspěvku týká, kontaktujte jej e-mailem.



 RSS 0.9x  Export  RDF  Export  RSS 0.9x  Komentáře  TXT  Komentáře  XHTML 1.0  Validate  W3C  CSS 2.1  Em-web  Resizable  W4D  90% dogmatic

Vygenerováno: [stránka generována dynamicky]