TGTGInsighttelegram intelligenceLIVE / telegram public index
← GitHub Trends

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @githubtrending · Post #15573 · Mar 19

#java#a11y#accessibility#ai#bounding_box#document_parsing#eaa#html#json#markdown#ocr#ocr_recognition#pdf#pdf_accessibility#pdf_converter#pdf_extraction#pdf_parser#pdf_ua#rag#tables#tagged_pdf OpenDataLoader PDF is a free, open-source tool (Apache 2.0) that tops benchmarks with 0.90 accuracy for extracting structured data like Markdown, JSON (with bounding boxes), and HTML from any PDF—digital, scanned, or complex with tables, formulas, charts, and OCR in 80+ languages. It runs locally on CPU (0.05s/page fast mode), filters AI prompt injections for safety, integrates with LangChain/RAG, and automates accessibility tagging to Tagged PDF. You save time and costs on parsing for AI pipelines or compliance (vs. $50–200/manual doc), getting precise, private results for better LLM apps and legal standards. https://github.com/opendataloader-project/opendataloader-pdf

Results

2 similar posts found

Search: #dataleack

当前筛选 #dataleack清除筛选
Клавдий в ИБ

@cyberpoleshuk · Post #98 · 05/29/2024, 06:10 AM

Тут с аукциона Christie’s украли под миллиона данных о клиентах. Нет, это не новая модная экспозиция или выставка, а реальность. Новая на горизонте ThreadHunting киберпреступная группа RansomHub опубликовала новость на своей страничке в дарунете о взломе и дала 5 дней выйти на связь для обсуждения дальнейшего чека. Самое пока интересное для меня в этой истории три вещи: - заявление пресс-секретаря что «постаралали некоторые клиенты» - пол миллиона человек, ну чуть-чуть совсем; - злоумышленники целенаправлено атаковали с целью украсть данные но не шифровали и не уничтожали инфраструктуру; - в случае невыплаты «чека» грузятся использовать инструменты ответственности за нарушение GDPR. Интересные ребята вышли на тропу киберкриминала… #cybercrime#hack#dataleack

Клавдий в ИБ

@cyberpoleshuk · Post #111 · 06/02/2024, 08:13 PM

Хэш-теги для быстрого поиска контента (с июня 2024 года - до этого ручной поиск, сорри но пока так 🫡) Список по мере добавления чего-то нового будет обновляться👨‍💻 #a1 - the best Company #ai - все что касается ИИ #announcement - что-то лично хочу заявить #book - сам читаю и вам советую #blueteam - понравится защитникам #case - правда жизни #cis - любимый фреймфорк #cybercrime - мр*зи #dataleack - утечка данных #game - “Что наша жизнь? Игра!” #git- есть интересный репозитория #hack - взломы #film - и сериалы тоже что бы не писать портянку #law - юрилический или пан-юридический документ #lifehack - полезность #linux - про пингвинов тут #malaware - что-то написал про вредоносное ПО #microsoft - когда-то адекватная компания #news - что то связанное с новостной повесткой #post - мой материал #redteam - атакующие инструменты #report - хорошие отчеты #scam - “обмануть за 60 секунд” #tool - полезный инструмент #quote - сказал что то такое что самому понравилось или позаимствовал #windows - то, что часто атакуют