Потребителски вход

Запомни ме | Регистрация
Постинг
09.11.2008 11:44 - Google разчита текст от сканирани документи
Автор: inet Категория: Технологии   
Прочетен: 2370 Коментари: 0 Гласове:
0



Последните дни съм доста натоварен, а и посещенията на разни събития като BGsite 2008 ми отнеха известно време и бях поизостанал с четенето на RSS каналите си. Днес наваксвам и попаднах на новината, че Google вече индексира текст от сканирани документи в PDF формат. Определено е напредък към целта цялата информация на света да е индексирана от търсачката им :-)

В какво всъщност се състои проблема и защо не бяха индексирани тези документи досега? Сканираните документи всъщност се запазват като картинки и компютърът принципно няма идея, че картинката визуализира текст. Чрез OCR (Optical Character Recognition) софтуер този текст може да бъде разпознат и извлечен и точно това са направили Google. Единственото, което не разбирам в случая е защо им отне толкова време. OCR и то в доста по-сложни ситуации беше демонстриран в Image Search услугата им преди месеци. Спамърите разбиват капча изображения (CAPTCHA) като това под този постинг от години, с различна успеваемост...

Както и да е, важното е, че индексирането вече е факт, както може да се убедите от тези търсения:

repairing aluminium wiring
steady success in a volatile world


Тагове:   Google,   текст,


Гласувай:
0



Спечели и ти от своя блог!
Няма коментари
Вашето мнение
За да оставите коментар, моля влезте с вашето потребителско име и парола.
Търсене

За този блог
Автор: inet
Категория: Технологии
Прочетен: 1930655
Постинги: 259
Коментари: 660
Гласове: 1285
Календар
«  Декември, 2022  
ПВСЧПСН
1234
567891011
12131415161718
19202122232425
262728293031