Jag fick mejl med en fråga om den semantiska webben och i den efterföljande mejlväxlingen förklarade jag lite om varför jag tycker mikroformat är en mer sannolik väg mot den semantiska webben.
Den semantiska webben går ju ut på att beskriva semantiken i den information som publiceras på webbsidor så att den kan läsas maskinellt.
Om vi tar sidan “Om XYZ” som exempel så skulle det mesta av den informationen kunna beskrivas semantiskt vid sidan av den läsbara. Då skulle kunna denna information kunna indexeras för att möjliggöra sökningar à la “företag i Stockholmstrakten som bedriver förlagsverksamhet och publicerar ordböcker”.
Om man tänker på alla olika typer av information som kan publiceras inser man att uppdraget att beskriva denna semantiskt är ofantligt stort. Det finns säkert någon smart plan för hur den semantiska webben skulle introduceras steg för steg men det är trots detta ett väldigt ambitiöst projekt och jag är inte säker på att det någonsin kommer genomföras på det sättet.
Mikroformat tar en lite enklare väg. De utgår från HTML och den semantik som redan finns där. HTML beskriver ju vad som är rubriker, vad som är numrerade listor och punktlistor osv. Men du kan även märka upp saker som att en person eller bok är en citerad källa, att något är en adress, m.m.
Därutöver utnyttjar mikroformat möjligheten att “klassa” elementen i ett dokument.
Om vi återgår till sidan “Om XYZ” så finns där bland annat er adress. Denna skulle kunna märkas upp enligt mikroformatet hCard och då kunna läsas maskinellt:
XYZ, Xyzgatan 99, 199 99 Zyx<br>tfn 08-999999
Motsvarande med mikroformatet hCard:
<div class="vcard">
<span class="org">XYZ</span>,
<span class="adr">
<span class="street-address">Xyzgatan 99</span>,
<span class="postal-code">199 99</span>
<span class="locality">Zyx</span>
</span><br>
tfn <span class="tel">08-999999</span>
</div>
Med ovanstående extra HTML skulle de sökmotorer som förstår mikroformat kunna avgöra att det finns ett företag med namnet XYZ med denna adress och detta telefonnummer.
Det finns nio olika mikroformat i dagsläget. Bland dessa finns t.ex. ett mikroformat för att märka upp kalenderinformation, så låt säga att du på din hemsida skriver om en föreläsning du ska hålla. Då skulle du med mikroformatet hCalendar kunna märka upp tid och plats och sökmotorer skulle kunna indexera detta.
Därutöver finns ungefär lika många till som är på utkaststadiet, bland annat mikroformat för att beskriva recensioner av föremål och företeelser, mikroformat för att beskriva meritförteckningar med mera.
Anledningen till att jag tror mer på mikroformat än på den semantiska webb som beskrivits tidigare är att mikroformat utgår från något många är bekanta med (HTML) och kombinerar detta med etablerade format (formatet hCard är baserat på formatet vCard som använts i många år att beskriva kontaktinformation) så att man med minimala förändringar till sin HTML kan göra den lagom mer semantisk.
Ptja, vad det handlar om är att sätta struktur på data så att informationen blir användbar för datorer. Även om det skulle vara äpplen och päron så är det iallafall frukt. Mer diskussion finns här: http://www.readwriteweb.com/archives/2007_web_predictions.php Jag hittade förresten lite aktivitet från W3C inom området (kan det bli världens längsta förkortning?): http://lists.w3.org/Archives/Public/public-rdf-in-xhtml-tf/2006Apr/0069.html
Posted by: Rasmus | 2007.05.07 at 11:13
En nackdel med Microformats är att varken MS eller Google stödjer det. MS har sitt SSE och Google har också tagit fram ett eget Atom-baserade format för olika sorters data. Men visst vore det fint om Microformats fick ordentligt fotfäste!
Posted by: Rasmus | 2007.05.07 at 11:13
Nackdelen med “autonoma” format, är att de lever för sig själva. Vill man t.ex. publicera RSS så måste man tillhandahålla ytterligare en distributionskanal. Nu är det inte så stort problem med RSS, eftersom det är så populärt, men när ett format är väldigt litet och det finns få konsumenter så är det lite svårare att motivera.
Med “inbäddade”/mikroformat så är det inte ytterligare en distributionskanal man behöver skapa, utan det räcker att anpassa sina nuvarande (förutsatt att man redan publicerar datan som HTML sidor).
En annan fördel är att man ständigt ser sin HTML sida så om något skulle börja gå galet, så att man t.ex. inte längre uppdaterar datan, så märker man det snabbt.
Posted by: Jonas Bengtsson | 2007.05.07 at 11:13
Rasmus: Är det inte äpplen och päron? Mikroformat handlar ju om att märka upp data i HTML-dokument med CSS-klasser. Atom handlar ju om flöden. SSE stötte jag först på idag faktiskt (på TechCrunch) men det verkar ju handla om flöden det också?
Posted by: Peter | 2007.05.07 at 11:13