25.12.2014 jsem na AP zveřejnil info o tom, že jsem začal opět dělat na ATEconvertu. Tak trochu ze strachu na reakci, když za něco co ještě ani není uděláno a třeba ani nikdy nedodělám budu chtít pár korun (když to dodělám) a ještě k tomu to bude v programovacím jazyce špatným pro Amigu, pomalé, paměťově náročné atd. jsem to nejdříve dal jen na AP a čekal na reakce. Byla jedna spíše pozitivní.
Je více důvodů, proč dělám co dělám a něco jsem napsal i v 1. příspěvku. Sám nevím, jestli to dokončím s původní myšlenkou přímého převodu, protože to bude chtít editovat když dobře počítám celkově 46592 písmen. 7 znakových sad + 7 těch samých ale v UTF-8, když budu chtít převést z jedného typu kódování na jiný, budu potřebovat 13 (z jedného převádím) x 128 = 1664 a to samé i na druhý směr = 3328 * 14 kódovani = 46592 znaků a to polovina tedy 23296 znaků je pro UTF-8 a u toho je 1 znak tvořen z více znaků
. Původní verze ATEconvertu pracovala se 14 tabulkami, teď by jsem jich potřeboval 364, v lepším případě "jen" 182. Asi by opravdu stálo za to udělat nějaký program, který by mi ty písmena do těch tabulek rozhodil. Pokusím se o to.
Dost bylo úvah, zde jsou mé příspěvky:Tak jo, něco málo ze včeřejška a dnes jsem si našel čas a chuť se pomalu vracet k mému Ateconvert. Ještě nejsem úplně odpočatej od Vánoc a můj poloviční stav mysli je ideální na vymýšlení jednoduchší logiky. Uplný počátek je vidět na videu.
Čeho chci dosáhnout oproti původcní nedokončené verzi?
Přes 3 násobně rychleší převod. Každý stav převodu bude mít svojí tabulku Tedy tabulek bude opravdu hodně oproti původní verzi. Podle vstupého kódování a zvoleného výstupného kódování se pouze převede hodnota písmene na číslo a s hodnotou čísla se pude hned na tabulku. Teď si možná někdo řekne, že to je přeci normální převod, ale neni tomu tak! Původní verze pracovala s mnohem mín tabulkami jako verze co teď plánuji, měl jsem to namyšlené dobře, ale takový převod je rychlý tak u PC, nebo třeba kdyby se jednalo o program na Amize napsaný v jazyku C. V budoucnu možná Ateconvert napíšu v C a tím pošlu rychlost převodu z původní verze Ateconvert, pokud by byla napsaná v C k šípku.
Zatím se bude jednat kvůli jednoduchosti o čistý převodník, nebude to umět formátovat text, tak jak to bylo zamýšleno v původní verzi.
Cílem převodníku je možnost si na Amize převést kódování UTF-8 v rámci nejznamějších českých kódování. Samozřejmě budou podporované i klasické české kódování.
Hodně jsem o Ateconvert přemýšlel. Původně jsem si chtěl udělat verzi v Pythonu jen pro sebe, aby jsem pak časem se pokusil to napsat v C a verzi v C pak nabídnout jako zpoplatněnou, ale ta Pythoní verze by se i tak časem provalila a nechtěl by jsem se dostat do situace, kdyby jsem říkal né, to je mé pracovní, pokud by si ten program chtěl někdo zkusit. Verzi v Pythonu budu postupně dělat pár měsíců, natož verzi v C. Druhá věc je že Ateconvert je a bude můj program a v Pythonu si to člověk přečte jako noviny. Je mi jasné, že to nebude světoborný program, ale mám nárok si chránit to své. Pokud si Pythoní verzi Ateconvert nikdo nekoupí, bude dosažen můj původní záměr ji mít jen pro sebe .
Předpokládána pamětová náročnost 4 MB
OS 3.x
Mé podmínky (to jsem ale drzej):
Pythoní verze bude jen pro ČR a SR.
Budu mít přehled o tom, kdo ji bude mít.
Předpokládana cena 29 KČ
Pokud bude verze v C a bude ten, co bude mít verzi v Pythonu chtít tuhle verzi, verzi v Pythonu na svém počítači smaže, verzi v C bude mít výhodněji.
Jednoduchý příklad poměru, jak to asi bude, cena se však může lišit.
Verze v C - 99 KČ, pro majitele Pythoní verze bude ta v C stát 29 KČ, takže ve výsledku dá za verzi v C pak uživatel 58 KČ.
Čísla nejsou konečná, a nemyslím si, že jsou ta co uvádím přemrštěná. Pitomé mé dýško, když jsem v restauraci hodně spokojen je více než 30 KČ.
Programování zdar!
[youtube]https://www.youtube.com/watch?v=Uv1Cj-CwEtA[/youtube]
Další příspěvek:Další náhled do postupu prací. Kompletně jsem přepsat autodetekci kódování. Ta by teď měla být rychlejší než v nedokončené původní verzi Ateconvertu (zatím vůbec netestováno, ale pevně v to veřím, je to teď napsáno dle mne podstatně lépe, tak uvidím). Detekce kódování je provedena jen u znakových sad s nedefinovanými znaky. Detekce zatím funguje pouze jen v 1. řádku TXT souboru, ta se ale provede automaticky při každém načtení souboru. V 1. řádku TXT souboru dokážeme uřčit příznak BOM, který v UTF-8 kódování je zbytečný, tedy neplní svoji konkrétní funkci a Microsoft ho ve Windows používá i na rozpoznání toho, že jde o UTF-8 (neplést si to s UTFG ), co je jen dobře. Pak se určí sekvence zalamování řádků a provede se vyloučení možných kódování. V ukázce je vyloučeno kódování ASCII.
Program spuštěn na výkonu A1200.
[youtube]https://www.youtube.com/watch?v=JzN1Fl-T7jw[/youtube]
A aktuální:Prvotní nástřel detekce kódování pro celý soubor (výkon A1200):
[youtube]https://www.youtube.com/watch?v=euqdxLfawMM&feature=youtu.be[/youtube]