Потребителски вход

Запомни ме | Регистрация
Постинг
09.11.2008 11:44 - Google разчита текст от сканирани документи
Автор: inet Категория: Технологии   
Прочетен: 2451 Коментари: 0 Гласове:
0



Последните дни съм доста натоварен, а и посещенията на разни събития като BGsite 2008 ми отнеха известно време и бях поизостанал с четенето на RSS каналите си. Днес наваксвам и попаднах на новината, че Google вече индексира текст от сканирани документи в PDF формат. Определено е напредък към целта цялата информация на света да е индексирана от търсачката им :-)

В какво всъщност се състои проблема и защо не бяха индексирани тези документи досега? Сканираните документи всъщност се запазват като картинки и компютърът принципно няма идея, че картинката визуализира текст. Чрез OCR (Optical Character Recognition) софтуер този текст може да бъде разпознат и извлечен и точно това са направили Google. Единственото, което не разбирам в случая е защо им отне толкова време. OCR и то в доста по-сложни ситуации беше демонстриран в Image Search услугата им преди месеци. Спамърите разбиват капча изображения (CAPTCHA) като това под този постинг от години, с различна успеваемост...

Както и да е, важното е, че индексирането вече е факт, както може да се убедите от тези търсения:

repairing aluminium wiring
steady success in a volatile world


Тагове:   google,   текст,


Гласувай:
0



Спечели и ти от своя блог!
Няма коментари
Вашето мнение
За да оставите коментар, моля влезте с вашето потребителско име и парола.
Търсене

За този блог
Автор: inet
Категория: Технологии
Прочетен: 2033345
Постинги: 259
Коментари: 660
Гласове: 1285
Календар
«  Април, 2024  
ПВСЧПСН
1234567
891011121314
15161718192021
22232425262728
2930