Постинг
09.11.2008 11:44 -
Google разчита текст от сканирани документи
Последните дни съм доста натоварен, а и посещенията на разни събития като BGsite 2008 ми отнеха известно време и бях поизостанал с четенето на RSS каналите си. Днес наваксвам и попаднах на новината, че Google вече индексира текст от сканирани документи в PDF формат. Определено е напредък към целта цялата информация на света да е индексирана от търсачката им :-)
В какво всъщност се състои проблема и защо не бяха индексирани тези документи досега? Сканираните документи всъщност се запазват като картинки и компютърът принципно няма идея, че картинката визуализира текст. Чрез OCR (Optical Character Recognition) софтуер този текст може да бъде разпознат и извлечен и точно това са направили Google. Единственото, което не разбирам в случая е защо им отне толкова време. OCR и то в доста по-сложни ситуации беше демонстриран в Image Search услугата им преди месеци. Спамърите разбиват капча изображения (CAPTCHA) като това под този постинг от години, с различна успеваемост...
Както и да е, важното е, че индексирането вече е факт, както може да се убедите от тези търсения:
repairing aluminium wiring
steady success in a volatile world
В какво всъщност се състои проблема и защо не бяха индексирани тези документи досега? Сканираните документи всъщност се запазват като картинки и компютърът принципно няма идея, че картинката визуализира текст. Чрез OCR (Optical Character Recognition) софтуер този текст може да бъде разпознат и извлечен и точно това са направили Google. Единственото, което не разбирам в случая е защо им отне толкова време. OCR и то в доста по-сложни ситуации беше демонстриран в Image Search услугата им преди месеци. Спамърите разбиват капча изображения (CAPTCHA) като това под този постинг от години, с различна успеваемост...
Както и да е, важното е, че индексирането вече е факт, както може да се убедите от тези търсения:
repairing aluminium wiring
steady success in a volatile world
Google продължава да владее Великобритан...
КАКВО Е ВАЖНО ДА ЗНАЕМ ЗА ЛИНКОВЕТЕ В ТЕ...
НЕОБХОДИМО ЛИ Е ДА РАЗДЕЛЯМЕ ДЪЛГИТЕ ТЕК...
КАКВО Е ВАЖНО ДА ЗНАЕМ ЗА ЛИНКОВЕТЕ В ТЕ...
НЕОБХОДИМО ЛИ Е ДА РАЗДЕЛЯМЕ ДЪЛГИТЕ ТЕК...
Следващ постинг
Предишен постинг
Няма коментари
Вашето мнение
За да оставите коментар, моля влезте с вашето потребителско име и парола.
Търсене
За този блог
Гласове: 1285
Блогрол
1. Моят личен блог
2. Уеб Фокус - оптимизация за търсачки, AdWords, уеб дизайн и уеб анализи
3. Сравнение на цени
4. Лейди Красита
5. Онлайн магазини
6. Самолетни билети
7. Тв Програма
8. Пожелания за Коледа и Нова Година
9. Пожелания за Свети Валентин
10. Онлайн речник
11. Съновник
12. Analytics Toolkit
13. Новини
14. Vestnicibg.com
15. Evtini-samoletni-bileti.net
16. Последни новини
17. Freedom.bg
18. Online Calculator
2. Уеб Фокус - оптимизация за търсачки, AdWords, уеб дизайн и уеб анализи
3. Сравнение на цени
4. Лейди Красита
5. Онлайн магазини
6. Самолетни билети
7. Тв Програма
8. Пожелания за Коледа и Нова Година
9. Пожелания за Свети Валентин
10. Онлайн речник
11. Съновник
12. Analytics Toolkit
13. Новини
14. Vestnicibg.com
15. Evtini-samoletni-bileti.net
16. Последни новини
17. Freedom.bg
18. Online Calculator